斯坦福AI指数报告:中国模型追到离美国只差2.7%——这意味着什么
4月13号,斯坦福HAI(以人为本人工智能研究院)发布了年度《人工智能指数》报告。这份报告长达数百页,是全球AI领域的”体检表”。
其中最抓眼球的一个结论:截至2026年3月,美国Anthropic的顶级模型仅以2.7%的微弱优势领先于中国的字节跳动等企业的模型。在衡量语言、数学和编程能力的基准测试中,这种差距已基本消失。
2.7%。这个数字太有冲击力了。
先说清楚这个数字是怎么得出来的。斯坦福HAI的评估体系叫HELM(Holistic Evaluation of Language Models),测试维度包括语言理解、数学推理、编程能力、常识推理等等。他们把全球主要模型跑了一遍,然后做了一个综合评分。
结果显示:Anthropic的Claude 3.7 Sonnet大概是0.89分,字节跳动的豆包是0.87分,差距2.7%。如果你算置信区间,这俩实际上已经重叠了——换句话说,在统计意义上,”美国最强”和”中国最强”已经没有显著差距。
这个结论让我想起了去年这个时候的情况。2025年4月,斯坦福的报告里中美差距大概是15%左右。一年之间,从15%到2.7%,这个追赶速度是相当快的。
快速原因是什么?
我觉得有几个因素。第一是开源模型的推动。这波追赶很大程度上是靠DeepSeek、Qwen、GLM这些开源模型的进步。它们不是闭门造车,而是在开源社区的基础上快速迭代,这降低了研发的门槛,同时让全球的优质代码、数据和方法论都能被复用。
第二是应用场景的丰富。中国市场太大了——从电商客服到短视频推荐,从智能汽车到医疗影像,AI落地的场景太多太密集。这种规模的真实数据反馈,是实验室环境下很难模拟的。
第三是人才流动。我不是这方面的专家,但一个不争的事实是,全球顶级AI研究者中华人占比极高。很多在美国接受训练的人才,回国后带去了方法论和工程经验。
但是——我要说但是了——基准测试的差距缩小,不等于实际能力的差距缩小。
为什么这么说?因为基准测试(benchmark)考的是模型在特定任务上的表现,而这些任务本身可能是偏重某些能力的。比如编程能力强的模型,在某些基准测试里会很占便宜,但如果实际应用场景更需要的是创意写作或者多模态理解,排名可能又不一样。
还有一个更根本的问题:基准测试可以被过拟合。一个模型如果在HELM上训练过——哪怕是间接地通过数据污染、任务泄露等方式——它的分数也会虚高。这不是阴谋论,是有先例的。
我个人的感受是:2.7%这个数字是一个信号,但不是结论。它告诉我们中国模型确实已经进入了”可比较”的行列,不再是”落后两代”的局面。但在复杂推理、长程规划、真正的多模态理解这些更核心的能力上,差距是否同样缩小了,我持保留态度。
更值得关注的倒是另一个趋势:这场竞争已经不再是”美国 vs 中国”的二元对立了。看最近一年的模型发布,Anthropic是美国公司,但OpenAI的投资方里有孙正义的软银——日本资本。欧洲在推自己的可信AI框架,日韩也在投入。AI竞争正在从”国家竞争”变成”生态竞争”。
你觉得中国模型和美国模型的差距,真的只剩下2.7%了吗?还是说这个数字有水分?