DeepSeek V4架构曝光:这个万亿参数模型,把MoE玩出了新花样

4月18日这天,AI圈的热点不是某个模型发布,而是DeepSeek V4的架构细节被进一步披露。

说实话,我关注DeepSeek很久了。从V1到V3,这家公司的技术路线一直很清晰:用最少的算力,做出最好的模型。但这次V4的架构细节,还是让我有点意外。

先说参数规模。根据披露的信息,DeepSeek V4的参数规模可能达到1.6万亿——这比V3的670亿参数翻了近24倍。但更关键的是,它激活的参数数量并没有等比例增长,而是维持在一个相对合理的范围。

这就要说到MoE(混合专家)架构了。

传统的Dense模型(像GPT-4),推理时需要激活所有参数。而MoE模型只在推理时激活一部分「专家」网络,这样可以在保持大参数规模的同时,控制推理成本。

DeepSeek V4把这个思路玩出了新花样。根据披露,V4的MoE架构叫做「Mega MoE」,激活专家数从V3的256个跃升到512个。这意味着什么?

简单说,就是模型可以更精细地分配任务。比如遇到一个编程问题,模型可以从512个专家中挑选最擅长编程的那几个来处理;遇到一个数学问题,就换成数学专家。这种「专家分工」的方式,理论上可以让模型在每个领域都达到专门的SOTA水平。

但我个人觉得,这里有个技术难点:如何保证512个专家都能被充分训练?如果有些专家很少被激活,那它们的参数可能就没训练到位。DeepSeek在这方面是怎么解决的?官方没细说,但从业内消息来看,他们可能引入了一种新的「专家负载均衡」算法,强制每个专家都要参与训练。

这事儿挺有意思的。我之前试过DeepSeek V3,给我的感觉是:中文能力很强,但在一些细分领域(比如代码生成)还有提升空间。如果V4真的能把「专家分工」做到极致,那可能会在多个领域都达到顶尖水平。

另一个值得关注的点是训练效率。

DeepSeek官方称,V4的训练效率比V3提升了40%。这个数字听起来有点抽象,但如果换个说法——同样的算力,V4可以训练更大的模型——这就很有吸引力了。毕竟算力成本是AI公司最大的开支之一,能提升训练效率,就意味着能在同样的预算下做出更强的模型。

具体是怎么做到的?根据技术文档,DeepSeek在V4中引入了「动态稀疏注意力」机制,让模型在训练时只关注真正有用的上下文信息,而不是像传统模型那样处理所有输入。这有点像人类阅读——不会逐字逐句地看,而是重点看关键段落。

我个人感受是,DeepSeek的技术路线越来越成熟了。从一开始的「追赶者」到现在的「创新者」,这家公司展示了中国AI团队在工程化能力上的进步。当然,V4最终能达到什么水平,还需要看实际效果。但从架构设计来看,它确实走出了一条不同于OpenAI和Anthropic的路。

这让我想起一句话:AI的竞争,最终可能不是「谁的模型更大」,而是「谁的架构更聪明」。

DeepSeek V4,可能就是这句话的一个注脚。

不过话说回来,架构再好,最终还是要看落地效果。我现在的期待是:什么时候能开放API?什么时候能本地部署?毕竟对于开发者来说,一个不能用的模型,参数再大也只是PPT。

期待DeepSeek能尽快公布更多信息。