Claude Opus 4.7登顶全球榜首:这次Anthropic真的把OpenAI甩开了?

说实话,看到这个排名的时候我还愣了一下。

4月17日,LMSYS Chatbot Arena 更新了最新一期的模型排名——Claude Opus 4.7 以 1387 分的 Elo 评分,首次超越 OpenAI 的 GPT-5.4 Pro,坐上了全球第一的位置。

这事儿挺有意思的。要知道,过去两年这个榜单基本上是 OpenAI 的自留地,GPT-4、GPT-4 Turbo、GPT-4o 轮流坐庄,偶尔被 Google Gemini 挑战一下,但很快又夺回王位。这次 Anthropic 能翻盘,背后有点东西。

先看点硬核数据

Opus 4.7 的强项在哪里?从 Arena 的细分维度来看:

  • 多轮对话连贯性:94.2% 的胜率,比 GPT-5.4 高出 3.7 个百分点
  • 代码生成:在 HumanEval 扩展集上达到 92.1%,创下新纪录
  • 长上下文理解:200K token 的 needle in haystack测试,准确率 99.3%

但最让我意外的是推理深度这个维度。Opus 4.7 在需要多步逻辑推导的数学题上,表现比 GPT-5.4 稳定得多——不是说它对的多,而是它错的更有逻辑。

写在最后

模型排名这东西,看看就好,别太当真。下个月 OpenAI 发个新版本,可能又换回来了。