DeepSeek V4要来了:万亿参数跑在华为昇腾上,这意味着什么?

有个消息在AI圈里悄悄传开了:DeepSeek V4预计4月下旬发布。

参数规模1万亿,采用MoE架构,最重要的是——它确认会运行在华为昇腾处理器上。

这事儿我越想越觉得有意思。不是因为参数多大,而是因为这意味着国产AI芯片终于要迎来「真刀真枪」的考验了。

先说说DeepSeek V4的基本面

1万亿参数是什么概念? GPT-4官方没公布参数,但业内普遍猜测在1.8万亿左右。DeepSeek V4如果真是1万亿,那已经摸到了第一梯队的门槛。

MoE架构(混合专家模型)现在已经是标配了。简单说就是把一个大模型拆成很多个小专家,每次只激活一部分,既省算力又能保持性能。DeepSeek在V3的时候就已经在用MoE了,V4应该是在这个基础上的升级。

但我最关心的不是这些技术参数,而是「华为昇腾」这四个字。

国产芯片+前沿模型,这条路能走通吗?

说实话,之前国产AI芯片和前沿大模型的关系挺尴尬的。一方面,各大模型厂商都在用英伟达GPU训练;另一方面,国产芯片虽然能用,但基本都是在做推理部署,或者是跑一些「缩水版」模型。

DeepSeek V4如果真的是在昇腾上训练和推理,那就是一个标志性事件——国产芯片第一次跑起了万亿参数的 frontier model。

我问了几个做AI infra的朋友,他们普遍觉得这件事有两面性。

好的方面是:证明昇腾的算力密度和互联带宽确实够用了。万亿参数模型对硬件的要求极高,尤其是多卡之间的通信。如果DeepSeek能在昇腾集群上跑起来,说明国产芯片的工程化能力有了质的飞跃。

担心的方面是:优化工作量可能巨大。CUDA生态这么多年积累,各种算子库、通信库都非常成熟。昇腾的CANN生态虽然进步很快,但要说完全无痛迁移,恐怕不太现实。DeepSeek团队很可能花了很多精力在底层适配和算子优化上。

这事儿对国产AI生态意味着什么?

我觉得可能是个转折点。以前大家都觉得国产芯片只能做「备胎」,英伟达一卡脖子才想起来用。但如果DeepSeek V4在昇腾上的表现真能打,那就不一样了——开发者会认真考虑用昇腾做主力,而不是权宜之计。

而且DeepSeek有个特点是开源。V3就是开源的,V4大概率也会开源。如果开源代码里能看到完整的昇腾适配方案,那对整个社区都是巨大的贡献。其他团队可以直接参考,不用从头踩坑。

当然,这里也有个隐忧:性能对比。

如果DeepSeek V4在昇腾上的推理速度、训练效率,能达到英伟达方案的百分之多少? 80%?90%?还是只有60%? 这个数据会直接影响市场的选择。毕竟商业化场景下,算力就是成本,10%的效率差距可能就意味着生或死。

从更大的视角看

中美AI竞争的大背景下,芯片和模型的绑定越来越深。美国限制高端GPU出口,中国就必须有自己的替代方案。DeepSeek V4 + 华为昇腾的组合,可以看作是中国AI产业在「脱钩」压力下的一次重要突围。

突围能不能成功,现在还不好说。但至少有人在认真做这件事,而不是只是喊口号。

我倒是挺期待V4发布后的实测对比。不是我悲观,只是觉得「跑起来」和「跑得好」是两回事。希望DeepSeek能拿出让人信服的数据。

最后说一句:不管结果如何,这种尝试本身就值得尊重。总比某些人只会说「国产不行」然后躺着等死强。