DeepSeekV4完整技术规格提前曝光:1.6万亿参数、100万上下文长度
4月23日消息,距离月底只剩一周时间,近期各大模型纷纷推出新品或进行升级,唯独DeepSeek V4的发布还没有动静,实在让人有些着急。
DeepSeek V4最令人期待的,依旧是它此次将运用何种新技术,助力国产AI大模型跻身世界顶尖行列——即便无法成为最强,至少也要具备与闭源顶级AI一较高下的实力。
普林斯顿大学的博士生Yifan Zhang今日在X平台上公布了DeepSeek V4的全部技术参数,大家都清楚V4此次推出了两个版本,一个是完整版,参数量达到1.6万亿之多,另一个则是V4 Lite,参数量为2850亿,这些信息与此前的传闻十分吻合。
在注意力机制方面,DeepSeek V4运用了DSA2,该机制整合了此前DeepSeek V3/R1所采用的DSA机制,以及今年年初DeepSeek相关论文里提出的NSA这两种稀疏注意力机制。
MoE混合专家技术采用了融合方案,Mega内核,每层384个专家,每次激活6个专家。
残差连接其实就是先前论文里提出的Hyper-Connections,之前的DeepGemm更新中也有提及这一点。
后端训练与优化环节应用了不少新技术,优化器采用Muon,RL强化学习部分运用GRPO算法并结合KL散度修正,最终把预训练的32K上下文长度扩展到了1M。
另外,DeepSeek在之前的更新里曾暗示会支持视觉功能,这原本意味着它可能是多模态模型,不过现在却表示它依旧是纯文本大模型,这多少有些出人意料。
总的来说,他这次爆料的信息量不小,但真实性存疑。毕竟他并非DeepSeek公司的研发人员,所介绍的技术内容看起来像是整合了网上的公开资料,其中不少细节此前在网络上已有相关爆料,或是能从官方信息中找到一些线索,只是目前还无法完全证实罢了。
DeepSeek R1发布至今已过去15个月,距离DeepSeek V3.2最终版也过去了5个月。这段时间里,各大模型公司至少完成了一代大版本更新以及两三个小版本的迭代升级,DeepSeek V4所面临的压力不容小觑,发布时间越晚,这类问题就越突出。
现在只能希望下周真的可以看到DeepSeek V4完整版及Lite版上线。
