华为悄悄亮了一张底牌:鲲鹏+昇腾组合,这次不是「造神」
说实话,看到华为这次在硬件大会上的演示,我第一反应是:怎么没上热搜?
不是那种”震惊!华为造出中国最强AI芯片”的标题党,我是真觉得这事儿挺有意思的。他们这次展示的鲲鹏处理器 + 昇腾芯片组合,跑通了 LLM 训练和推理全流程——用自家的硬件,跑开源的 Llama 4 和 DeepSeek 模型。
这事儿的意义在哪儿?
先说数据:鲲鹏 920 处理器现在支持到 128 核心,昇腾 910B 芯片单卡算力 256 TFLOPS(FP16),这个数字什么概念?A100 是 312 TFLOPS,差距在 20% 以内。
20% 的差距听起来不小,但你要知道,华为这套方案的成本——包括芯片、服务器、运维——比买英伟达的方案便宜了 40% 左右。而且不用排队等货,不用受美国出口管制的限制。
我个人的感受是:这不就是国内很多企业一直在等的东西吗?
你说它是”国产替代”?也对,但不完全对。华为这次没有打「自主可控」的宏大叙事,也没喊「突破封锁」的口号。就是很务实地把技术数据摆出来:我们这套方案,能跑大模型,性能差 A100 不多,成本便宜 40%,你要不要试试?
这让我想起 2024 年那会儿,华为刚推昇腾芯片的时候,网上很多人说”性能不行””生态跟不上”。我当时也持保留态度——毕竟 AI 芯片这东西,不是你有硬件就行的,CUDA 生态那是英伟达花了十几年堆起来的。
但现在看,华为的策略很聪明:不跟 CUDA 正面硬刚,而是走「国产大模型」这条路。
什么意思?就是我不去抢你的 CUDA 开发生态,我只专注服务国内的 LLM 厂商——DeepSeek、通义千问、文心一言这些。你用我的芯片,我给你提供从驱动到框架的全栈支持,训练推理一条龙搞定。
这招的效果已经开始显现了。目前国内至少有 15 家大模型公司(包括几家头部厂商)在用华为的昇腾芯片做训练和推理。 华为官方没公布具体名单,但根据我了解到的信息,DeepSeek 的部分推理集群已经在用昇腾 910B 了。
这事儿有意思的地方在于:华为不是在做”中国的英伟达”,而是在做”大模型时代的 IBM”。
英伟达卖的是通用 GPU,你要玩游戏、做渲染、搞 AI 训练,都能用。但华为的鲲鹏+昇腾组合,从一开始就是面向 AI 计算的——鲲鹏做通用计算(数据预处理、模型推理的 CPU 部分),昇腾做加速计算(训练和推理的 GPU 部分)。
这种架构的优化空间比通用 GPU 大得多。因为你知道用户要干什么,可以针对性优化。
举个例子:华为这次演示了一个 70B 参数的 Llama 4 模型推理,在昇腾 910B 上跑出了每秒 28 个 token 的生成速度。这个速度在 A100 上大概是每秒 35 个 token——差距在 25% 左右,但如果你考虑到成本差距(40%),性价比其实是高的。
当然,我不是说华为的方案已经完美了。最大的问题还是生态: CUDA 有十几年的积累,全球几百万开发者在用,华为的 CANN(Compute Architecture for Neural Networks)生态现在还很小。
但华为这次做得聪明的地方是:它没有试图让开发者从 CUDA 迁移到 CANN,而是直接提供预训练好的模型和推理框架。 你不用改代码,直接部署就行。
这就把门槛降下来了。
说实话,我一直觉得国产 AI 芯片最大的问题不是性能,而是易用性。你性能差一点没关系,只要你让开发者用起来不折腾,就能抢到市场份额。
华为这次的策略,至少在方向上是对的。
最后说一个细节:华为这次演示用的模型是 Llama 4 和 DeepSeek——都是开源模型。这意味着什么?意味着华为的方案是完全开源友好的,你可以用自己的模型、自己的数据、自己的硬件,把整个 AI 训练推理链条掌握在自己手里。
这对于那些对数据隐私敏感的企业(比如金融、医疗、政务),是一个很大的卖点。
我不知道华为这套方案最终能走到哪一步,但至少这次,我没有看到那种”我们要颠覆英伟达”的狂言,只有很务实的「我们提供了一个备选方案」。
说实话,这种低调务实,反而让我觉得靠谱。