Claude Opus 4.7登顶全球第一:这个结果有点意外


title: Claude Opus 4.7登顶全球第一:这个结果有点意外
date: 2026-04-20 06:56:00
tags:
- Claude Opus 4.7
- AI模型排名
- GPT-6
- DeepSeek V4
- 模型评测
categories: AI科技

说实话,看到这个排名的时候,我有点意外。

4月17日,全球主流AI模型评测榜单更新:Claude Opus 4.7以总分92.3的成绩,超越GPT-6(91.8)登顶全球第一。

为什么说意外?因为GPT-6才刚发布3天(4月14日发布),按理说应该还在”蜜月期”。

但仔细看了评测数据之后,我理解了。

先说说这个评测靠不靠谱

评测机构是OpenBench,一个相对独立的第三方评测平台。他们的测试集包括:

  • MMLU-Pro(知识理解)
  • HumanEval-X(代码生成)
  • GSM8K-Plus(数学推理)
  • MT-Bench-Extended(多轮对话)
  • Safety-Bench(安全性)

总共5个维度,每个维度满分20分,总分100分。

这个测试集的设计还算合理,至少比单纯看排行榜靠谱。

Claude凭什么反超?

我仔细对比了Claude Opus 4.7和GPT-6的各项得分:

维度 Claude Opus 4.7 GPT-6 差距
知识理解 18.7 19.2 -0.5
代码生成 19.1 18.9 +0.2
数学推理 18.9 18.4 +0.5
多轮对话 19.3 18.7 +0.6
安全性 16.3 16.6 -0.3
总分 92.3 91.8 +0.5

看出规律了吗?

Claude在”推理类”任务上全面领先:数学推理、多轮对话都领先GPT-6。而GPT-6在”知识类”任务上更强:知识理解、安全性略胜一筹。

这个结果其实符合两家公司的技术路线差异。

OpenAI一直强调GPT-6的”AGI能力”,在知识广度、通用能力上投入更多。而Anthropic从Claude 3开始就在”推理深度”上发力,Claude Mythos的技术突破也是围绕推理能力。

所以,如果你的应用场景是知识问答、内容生成,GPT-6可能更合适。但如果是复杂推理、多步任务,Claude Opus 4.7会更好用。

GPT-6输在哪里?

这事儿挺有意思的。GPT-6刚发布的时候,OpenAI的宣传重点是什么?

“性能暴涨40%”、”AGI最后一公里”、”参数规模突破10万亿”……

但你仔细看评测数据,GPT-6在代码生成和数学推理上的提升,并没有宣传的那么夸张。

代码生成:GPT-5.4是18.7分,GPT-6是18.9分,提升约1%。数学推理:GPT-5.4是18.2分,GPT-6是18.4分,提升约1%。

而多轮对话:GPT-5.4是18.5分,GPT-6是18.7分,提升约1%。

总而言之,GPT-6的性能提升主要集中在”知识理解”上,而推理能力的提升并不明显。

这事儿怎么说呢…OpenAI的宣传,多少有点”报喜不报忧”。

国产模型表现如何?

这次评测还包括了国产模型:

  • DeepSeek V4:总分89.7(全球第4)
  • 豆包5.0:总分88.2(全球第7)
  • 智谱GLM-4:总分87.5(全球第9)

DeepSeek V4的表现还是挺亮眼的。虽然总分距离Claude Opus 4.7还有2.6分的差距,但已经跻身”顶级梯队”。

具体来看,DeepSeek V4在代码生成上表现突出(18.8分),接近Claude和GPT的水平。但在多轮对话和安全性上,还有提升空间。

总体来说,国产模型与国际顶尖水平的差距正在缩小。从两年前的”代差”,到现在的”追赶”,进步是明显的。

我个人的判断

作为一个做过NLP研究的人,我对模型排名的态度是:参考,但不迷信。

评测榜单只能反映模型在特定测试集上的表现,无法完全代表真实应用能力。

比如,评测集可能无法覆盖所有场景:长文本理解、多模态能力、实时推理……这些都是实际应用中很重要的维度。

另外,模型的使用体验,还取决于API稳定性、响应速度、价格等因素。这些评测榜单无法反映。

所以,Claude Opus 4.7登顶第一,只能说明它在当前评测体系下表现最好。具体到你的应用场景,还需要自己测试。

最后留一个问题:你觉得AI模型的评测,应该以什么为标准?是通用能力,还是特定场景的专业能力?

我个人的答案是:应该分场景。通用模型看通用能力,垂直模型看专业能力。但现在的问题是:很多模型声称自己是”通用模型”,实际上在某些领域明显偏科。