DeepSeek V4 终于来了：万亿参数 MoE，国产大模型这次真的硬了

DeepSeek V4, 国产大模型, 万亿参数, MoE架构 — 23 4月 2026

等了快一个月，DeepSeek V4 终于来了。

说实话，这波发布比我想的还要「硬核」——万亿参数 MoE 架构，训练效率提升 40%，而且继续开源。

更关键的是，它的性能数据很漂亮：在多个基准测试中，DeepSeek V4 已经能和 GPT-5.4、Claude Opus 4.6 正面刚了。

这事儿让我想起上个月的「乌龙事件」——全网以为是 DeepSeek V4 发布，结果发现是小米的 MiMo-V2。

这次是真的了。

先说说 MoE 架构是个啥

MoE（Mixture of Experts）不是新概念，但 DeepSeek V4 把它做到了极致。

简单说，传统大模型是「全参数激活」——每次推理都要用到所有参数，计算量巨大。

MoE 是「稀疏激活」——虽然总参数量是万亿级别，但每次推理只激活其中一小部分（估计 10%-20%），大大降低计算成本。

打个比方：传统大模型像一个「全能员工」，啥都懂但每次都要调动所有知识；MoE 像一个「专家团队」，遇到不同问题找不同的专家，效率更高。

DeepSeek V4 的 MoE 架构，据官方披露，有 128 个「专家网络」，每次推理激活 16-20 个。

这意味着什么？

万亿参数的模型，实际推理时只用几百亿参数的计算量——性价比极高。

性能数据：国产大模型这次真的「硬」了

官方给的数据很扎实：

编程能力：在 SWE-bench Pro 基准测试中，DeepSeek V4 得分 78.2%，已经接近 GPT-5.4 的 79.1%。
数学推理：在 MATH 基准测试中，DeepSeek V4 得分 92.1%，超过 Claude Opus 4.6 的 89.7%。
长文本处理：支持 128K 上下文窗口，和 GPT-5.4 的 200K 还有差距，但已经够用。
训练效率：相比 V3 提升 40%，这个数据很关键——意味着国产算力的利用效率在提升。

最让我意外的是它的成本控制：官方表示，DeepSeek V4 的推理成本比 GPT-5.4 低 60%，比 Claude Opus 4.6 低 50%。

这事儿怎么做到的？

答案就是 MoE 架构——稀疏激活让计算量大幅下降，成本自然就低了。

林锐的观点：MoE 是国产大模型的「弯道超车」机会

为什么 DeepSeek 能做成万亿参数 MoE？

我觉得有三个关键因素：

算力限制逼出来的创新：国产算力芯片（华为昇腾、寒武纪）在单卡性能上还追不上英伟达，但在大规模集群调度上有优势。MoE 架构天然适合分布式训练，正好发挥了国产算力的优势。
工程能力的突破：MoE 架构的最大难点是「专家路由」——如何让模型知道哪个问题该找哪个专家。DeepSeek 在这方面的工程积累很深，从 V2 开始就在做 MoE。
开源策略的长期价值：DeepSeek 从一开始就走开源路线，吸引了大量开发者贡献代码、反馈问题。这次 V4 发布，社区已经贡献了 200+ 优化补丁。

这让我想起华为的芯片策略：在单点技术上追不上，就通过系统优化来弥补。

DeepSeek V4 就是这个思路：单卡性能不够，就通过架构创新来提升整体效率。

一个小细节：DeepSeek V4 的「国产算力」比例

官方没有披露具体数据，但从一些信息推断，DeepSeek V4 的训练中，国产算力（华为昇腾、寒武纪）占比应该在 30%-40%。

这个比例相比 V3 的 20% 有明显提升。

为什么这事儿重要？

因为国产算力的可用性，直接决定了国产大模型的「自主可控」程度。

如果 DeepSeek V4 的训练完全依赖英伟达 GPU，那它再开源，也会被「卡脖子」风险掣肘。

但现在，国产算力占比在提升，意味着国产大模型正在逐步摆脱对海外芯片的依赖。

这是一个长期趋势，短期内可能看不出差异，但等到中美科技博弈进一步升级时，这个「国产算力储备」的价值会体现出来。

争议点：万亿参数是不是「虚胖」？

有人质疑：万亿参数听起来吓人，但实际推理只激活几百亿，是不是「虚胖」？

我觉得这个质疑没抓到重点。

MoE 架构的本质就是「大参数量 + 稀疏激活」——这不是「虚胖」，而是「精兵简政」。

打个比方：你有一个 1000 人的公司，但每次项目只派 100 人去干。这叫「虚胖」吗？不叫，这叫「专业化分工」。

关键指标不是「总参数量」，而是「性价比」——同样的性能，谁的成本更低？

DeepSeek V4 在这方面已经证明了：它的推理成本比 GPT-5.4 低 60%，这才是硬实力。

林锐的判断：国产大模型进入「架构创新」阶段

2024 年是国产大模型的「追赶年」——拼命卷参数规模，试图缩小和 GPT-4 的差距。

2025 年是「应用年」——开始注重实际落地，不再只看基准测试分数。

2026 年，我觉得是「架构创新年」——通过 MoE、混合精度训练、分布式推理等技术，在算力受限的情况下实现性能突破。

DeepSeek V4 是这个趋势的典型代表。

它证明了：国产大模型不需要在「参数规模」上硬刚海外巨头，可以通过架构创新找到自己的路。

这事儿的意义，不亚于当年华为用 7nm 工艺做出了 5G 芯片。

最后说两句

DeepSeek V4 的发布，让我对中国 AI 产业的信心又增加了一点。

不是因为它的性能多强（虽然确实很强），而是因为它展示了一种可能性：在算力受限的情况下，依然可以通过技术创新实现突破。

这种「被逼出来的创新」，往往比单纯砸钱更有价值。

DeepSeek V4，我给 90 分——扣掉的 10 分是因为长文本能力还有提升空间。

但这个起点已经足够高了。

（完）

算力终于涨钱了:这波涨价背后的真相,没那么简单

阿里Qwen3.6登顶全球调用榜：国产大模型的「逆袭」还是「虚火」？

10天、3款大模型、无数场发布会：国产AI的「内卷」进入新阶段