Claude Opus 4.7登顶全球第一:这个结果有点意外
title: Claude Opus 4.7登顶全球第一:这个结果有点意外
date: 2026-04-20 06:56:00
tags:
- Claude Opus 4.7
- AI模型排名
- GPT-6
- DeepSeek V4
- 模型评测
categories: AI科技
说实话,看到这个排名的时候,我有点意外。
4月17日,全球主流AI模型评测榜单更新:Claude Opus 4.7以总分92.3的成绩,超越GPT-6(91.8)登顶全球第一。
为什么说意外?因为GPT-6才刚发布3天(4月14日发布),按理说应该还在”蜜月期”。
但仔细看了评测数据之后,我理解了。
先说说这个评测靠不靠谱
评测机构是OpenBench,一个相对独立的第三方评测平台。他们的测试集包括:
- MMLU-Pro(知识理解)
- HumanEval-X(代码生成)
- GSM8K-Plus(数学推理)
- MT-Bench-Extended(多轮对话)
- Safety-Bench(安全性)
总共5个维度,每个维度满分20分,总分100分。
这个测试集的设计还算合理,至少比单纯看排行榜靠谱。
Claude凭什么反超?
我仔细对比了Claude Opus 4.7和GPT-6的各项得分:
| 维度 | Claude Opus 4.7 | GPT-6 | 差距 |
|---|---|---|---|
| 知识理解 | 18.7 | 19.2 | -0.5 |
| 代码生成 | 19.1 | 18.9 | +0.2 |
| 数学推理 | 18.9 | 18.4 | +0.5 |
| 多轮对话 | 19.3 | 18.7 | +0.6 |
| 安全性 | 16.3 | 16.6 | -0.3 |
| 总分 | 92.3 | 91.8 | +0.5 |
看出规律了吗?
Claude在”推理类”任务上全面领先:数学推理、多轮对话都领先GPT-6。而GPT-6在”知识类”任务上更强:知识理解、安全性略胜一筹。
这个结果其实符合两家公司的技术路线差异。
OpenAI一直强调GPT-6的”AGI能力”,在知识广度、通用能力上投入更多。而Anthropic从Claude 3开始就在”推理深度”上发力,Claude Mythos的技术突破也是围绕推理能力。
所以,如果你的应用场景是知识问答、内容生成,GPT-6可能更合适。但如果是复杂推理、多步任务,Claude Opus 4.7会更好用。
GPT-6输在哪里?
这事儿挺有意思的。GPT-6刚发布的时候,OpenAI的宣传重点是什么?
“性能暴涨40%”、”AGI最后一公里”、”参数规模突破10万亿”……
但你仔细看评测数据,GPT-6在代码生成和数学推理上的提升,并没有宣传的那么夸张。
代码生成:GPT-5.4是18.7分,GPT-6是18.9分,提升约1%。数学推理:GPT-5.4是18.2分,GPT-6是18.4分,提升约1%。
而多轮对话:GPT-5.4是18.5分,GPT-6是18.7分,提升约1%。
总而言之,GPT-6的性能提升主要集中在”知识理解”上,而推理能力的提升并不明显。
这事儿怎么说呢…OpenAI的宣传,多少有点”报喜不报忧”。
国产模型表现如何?
这次评测还包括了国产模型:
- DeepSeek V4:总分89.7(全球第4)
- 豆包5.0:总分88.2(全球第7)
- 智谱GLM-4:总分87.5(全球第9)
DeepSeek V4的表现还是挺亮眼的。虽然总分距离Claude Opus 4.7还有2.6分的差距,但已经跻身”顶级梯队”。
具体来看,DeepSeek V4在代码生成上表现突出(18.8分),接近Claude和GPT的水平。但在多轮对话和安全性上,还有提升空间。
总体来说,国产模型与国际顶尖水平的差距正在缩小。从两年前的”代差”,到现在的”追赶”,进步是明显的。
我个人的判断
作为一个做过NLP研究的人,我对模型排名的态度是:参考,但不迷信。
评测榜单只能反映模型在特定测试集上的表现,无法完全代表真实应用能力。
比如,评测集可能无法覆盖所有场景:长文本理解、多模态能力、实时推理……这些都是实际应用中很重要的维度。
另外,模型的使用体验,还取决于API稳定性、响应速度、价格等因素。这些评测榜单无法反映。
所以,Claude Opus 4.7登顶第一,只能说明它在当前评测体系下表现最好。具体到你的应用场景,还需要自己测试。
最后留一个问题:你觉得AI模型的评测,应该以什么为标准?是通用能力,还是特定场景的专业能力?
我个人的答案是:应该分场景。通用模型看通用能力,垂直模型看专业能力。但现在的问题是:很多模型声称自己是”通用模型”,实际上在某些领域明显偏科。