斯坦福报告:阿里AI全球第三、中美模型差距「实质性消除」——这次不是自嗨?

4月16日,斯坦福大学人工智能研究所发布了最新一期《2026年人工智能指数报告》。报告里有一个让国内科技圈兴奋的数据:阿里巴巴位列2025年全球顶级模型贡献榜第三名,同时也是入选重要模型数量最多的中国科技公司。

报告还指出一个很重要的判断:「中美顶级大模型差距实质性消除,头部模型间表现相当,呈并跑态势」。

说实话,我看到这个消息的第一反应不是兴奋,而是想先搞清楚这个「贡献榜」是怎么排的。

斯坦福的这个排名主要看的是模型的技术贡献度,包括论文发表、引用、模型能力评测榜单表现等多个维度。阿里巴巴能排到第三,主要靠的是Qwen系列模型在过去一年的亮眼表现——Qwen2.5在多个评测基准上的表现已经可以和GPT-4o、Claude-3.5-Sonnet正面竞争,而且Qwen系列的开源策略(全面开放权重)对全球开发者社区的吸引力是真实的。

但是,「差距实质性消除」这句话,我有自己的保留意见。

差距消除指的是「头部模型」——也就是各家最顶尖的那一个。这个判断基本成立。Qwen-Max、GPT-4o、Claude-3.5-Opus这些旗舰模型之间的能力差距,在特定维度上确实已经在收窄,部分中文场景下国产模型甚至有领先。

但问题在于:头部模型接近,不代表整体生态成熟。中美AI的差距在中腰部模型、开源生态工具链、推理效率、推理算力成本等维度上,差距依然明显。换句话说,「旗舰模型并跑」是事实,「全面并跑」还是夸大了。

还有一个我比较关注的维度:这份报告里的数据采集时间是2025年。考虑到AI发展速度之快,2025年的数据到2026年4月,参考价值有多大,需要打一个折扣。最近半年国产模型的发展速度非常快,包括DeepSeek V4、MiniMax等新玩家的表现都值得关注。

我个人的立场是:国产AI进步是真实的,不需要妄自菲薄,但也不需要因为一份报告的标题就认为「已经超越」。客观地看,旗舰模型层面确实已经没有代差,但生态和工具链的成熟度,还需要时间追赶。

至于阿里巴巴能排到全球第三这件事,我倒是觉得是一个有意义的信号——至少说明国内有实力的大厂,在基座模型上的投入是真实有效的,而不是只在PPT上。

先看实际能力,再说。