DeepSeek V4 终于来了:万亿参数 MoE,国产大模型这次真的硬了
等了快一个月,DeepSeek V4 终于来了。
说实话,这波发布比我想的还要「硬核」——万亿参数 MoE 架构,训练效率提升 40%,而且继续开源。
更关键的是,它的性能数据很漂亮:在多个基准测试中,DeepSeek V4 已经能和 GPT-5.4、Claude Opus 4.6 正面刚了。
这事儿让我想起上个月的「乌龙事件」——全网以为是 DeepSeek V4 发布,结果发现是小米的 MiMo-V2。
这次是真的了。
先说说 MoE 架构是个啥
MoE(Mixture of Experts)不是新概念,但 DeepSeek V4 把它做到了极致。
简单说,传统大模型是「全参数激活」——每次推理都要用到所有参数,计算量巨大。
MoE 是「稀疏激活」——虽然总参数量是万亿级别,但每次推理只激活其中一小部分(估计 10%-20%),大大降低计算成本。
打个比方:传统大模型像一个「全能员工」,啥都懂但每次都要调动所有知识;MoE 像一个「专家团队」,遇到不同问题找不同的专家,效率更高。
DeepSeek V4 的 MoE 架构,据官方披露,有 128 个「专家网络」,每次推理激活 16-20 个。
这意味着什么?
万亿参数的模型,实际推理时只用几百亿参数的计算量——性价比极高。
性能数据:国产大模型这次真的「硬」了
官方给的数据很扎实:
编程能力:在 SWE-bench Pro 基准测试中,DeepSeek V4 得分 78.2%,已经接近 GPT-5.4 的 79.1%。
数学推理:在 MATH 基准测试中,DeepSeek V4 得分 92.1%,超过 Claude Opus 4.6 的 89.7%。
长文本处理:支持 128K 上下文窗口,和 GPT-5.4 的 200K 还有差距,但已经够用。
训练效率:相比 V3 提升 40%,这个数据很关键——意味着国产算力的利用效率在提升。
最让我意外的是它的成本控制:官方表示,DeepSeek V4 的推理成本比 GPT-5.4 低 60%,比 Claude Opus 4.6 低 50%。
这事儿怎么做到的?
答案就是 MoE 架构——稀疏激活让计算量大幅下降,成本自然就低了。
林锐的观点:MoE 是国产大模型的「弯道超车」机会
为什么 DeepSeek 能做成万亿参数 MoE?
我觉得有三个关键因素:
算力限制逼出来的创新:国产算力芯片(华为昇腾、寒武纪)在单卡性能上还追不上英伟达,但在大规模集群调度上有优势。MoE 架构天然适合分布式训练,正好发挥了国产算力的优势。
工程能力的突破:MoE 架构的最大难点是「专家路由」——如何让模型知道哪个问题该找哪个专家。DeepSeek 在这方面的工程积累很深,从 V2 开始就在做 MoE。
开源策略的长期价值:DeepSeek 从一开始就走开源路线,吸引了大量开发者贡献代码、反馈问题。这次 V4 发布,社区已经贡献了 200+ 优化补丁。
这让我想起华为的芯片策略:在单点技术上追不上,就通过系统优化来弥补。
DeepSeek V4 就是这个思路:单卡性能不够,就通过架构创新来提升整体效率。
一个小细节:DeepSeek V4 的「国产算力」比例
官方没有披露具体数据,但从一些信息推断,DeepSeek V4 的训练中,国产算力(华为昇腾、寒武纪)占比应该在 30%-40%。
这个比例相比 V3 的 20% 有明显提升。
为什么这事儿重要?
因为国产算力的可用性,直接决定了国产大模型的「自主可控」程度。
如果 DeepSeek V4 的训练完全依赖英伟达 GPU,那它再开源,也会被「卡脖子」风险掣肘。
但现在,国产算力占比在提升,意味着国产大模型正在逐步摆脱对海外芯片的依赖。
这是一个长期趋势,短期内可能看不出差异,但等到中美科技博弈进一步升级时,这个「国产算力储备」的价值会体现出来。
争议点:万亿参数是不是「虚胖」?
有人质疑:万亿参数听起来吓人,但实际推理只激活几百亿,是不是「虚胖」?
我觉得这个质疑没抓到重点。
MoE 架构的本质就是「大参数量 + 稀疏激活」——这不是「虚胖」,而是「精兵简政」。
打个比方:你有一个 1000 人的公司,但每次项目只派 100 人去干。这叫「虚胖」吗?不叫,这叫「专业化分工」。
关键指标不是「总参数量」,而是「性价比」——同样的性能,谁的成本更低?
DeepSeek V4 在这方面已经证明了:它的推理成本比 GPT-5.4 低 60%,这才是硬实力。
林锐的判断:国产大模型进入「架构创新」阶段
2024 年是国产大模型的「追赶年」——拼命卷参数规模,试图缩小和 GPT-4 的差距。
2025 年是「应用年」——开始注重实际落地,不再只看基准测试分数。
2026 年,我觉得是「架构创新年」——通过 MoE、混合精度训练、分布式推理等技术,在算力受限的情况下实现性能突破。
DeepSeek V4 是这个趋势的典型代表。
它证明了:国产大模型不需要在「参数规模」上硬刚海外巨头,可以通过架构创新找到自己的路。
这事儿的意义,不亚于当年华为用 7nm 工艺做出了 5G 芯片。
最后说两句
DeepSeek V4 的发布,让我对中国 AI 产业的信心又增加了一点。
不是因为它的性能多强(虽然确实很强),而是因为它展示了一种可能性:在算力受限的情况下,依然可以通过技术创新实现突破。
这种「被逼出来的创新」,往往比单纯砸钱更有价值。
DeepSeek V4,我给 90 分——扣掉的 10 分是因为长文本能力还有提升空间。
但这个起点已经足够高了。
(完)