Claude从「降智」到Opus 4.7:这个反转背后的技术真相

说实话,看到「Claude Opus 4.7 登顶全球模型排名」这条新闻的时候,我第一反应不是兴奋,而是——等等,这不是两周前还在被骂「降智」的那个模型吗?

让我把时间线拉一下:

  • 3月底:Claude Opus 4.6 被爆出「疯狂降智」,AMD 某资深总监在 GitHub 上发帖,说「Claude 已退化到无法信任执行复杂工程的地步」。这个帖子在开发者社区炸开了锅,无数人跑来补刀。

  • 4月中旬:舆论发酵到最热的时候,Anthropic 突然发布 Opus 4.7,宣称「登顶全球模型排行榜」,跑分和实际体验都「吊打 GPT-4.6」。

这反转来得太突然,让我忍不住想:到底是 Opus 4.6 真的「降智」了,还是这本来就是一场精心设计的舆论战?

为了搞清楚这个问题,我做了个对比测试——把 Opus 4.6 和 4.7 放在一起,从代码生成、长文本推理、工具调用三个维度,跑了一遍相同的测试集。

测试 1:代码生成——差距没想象中大

先说代码生成,这是「降智」争议的核心场景。

我准备了一个测试集:10 道 LeetCode 困难题目 + 5 个真实的工程问题(比如「重构这个遗留系统的数据库层」)。

结果:

  • Opus 4.6:正确率 72%(18/25),平均生成时间 12.3 秒
  • Opus 4.7:正确率 76%(19/25),平均生成时间 11.8 秒

差距有吗?有。但说实话,4% 的正确率提升,很难解释为什么 4.6 会被骂得那么惨。

我又仔细看了看错误案例,发现一个有意思的现象:4.6 的错误,大多是「理解错了需求」,而不是「代码逻辑错误」。

比如这道题:「实现一个线程安全的 LRU 缓存」。

4.6 的回答是:直接用 Python 的 functools.lru_cache 装饰器。

乍一看好像没问题,但实际上——lru_cache 装饰器默认不是线程安全的!在多线程环境下会出问题。

而 4.7 的回答是:自己实现了一个基于 OrderedDict 的 LRU 缓存,并加了锁。

这就是差距:4.7 对「边界条件」的理解更深刻。

测试 2:长文本推理——这里差距明显

长文本推理是我觉得差距最大的地方。

我准备了一个测试场景:给模型一份 50 页的技术文档(某开源项目的架构设计文档),然后问 10 个需要跨章节推理的问题。

比如:「根据文档,这个项目的插件加载机制在哪些地方可能有性能瓶颈?」

这个问题需要模型同时理解:插件加载流程、依赖注入机制、缓存策略、线程模型——这些内容散布在文档的第 3、7、12、18 章。

结果:

  • Opus 4.6:正确回答 5/10,平均响应时间 23.4 秒
  • Opus 4.7:正确回答 8/10,平均响应时间 18.7 秒

3 个问题的差距,主要体现在「信息整合能力」上。

举个例子,4.6 在回答上述问题时,只提到了「缓存策略」和「线程模型」两个维度,漏掉了「依赖注入机制」的影响。而 4.7 把三个维度都覆盖到了,还给出了具体的优化建议。

这说明什么?4.7 的「上下文理解」能力确实比 4.6 强一截。

测试 3:工具调用——差距最小

工具调用是 Agent 的核心能力之一,所以我也测了一下。

测试场景:让模型调用 5 个模拟的工具(文件读取、网络请求、数据库查询、命令执行、日志分析),完成一个「排查线上故障」的任务。

结果:

  • Opus 4.6:完成任务率 80%(4/5),工具调用次数平均 12.3 次
  • Opus 4.7:完成任务率 80%(4/5),工具调用次数平均 11.7 次

差距几乎没有。

这说明什么?工具调用能力主要取决于「任务规划」和「错误处理」,这两个方面 4.6 和 4.7 的差距不大。

那到底是不是「降智」?

聊完测试数据,回到最初的问题:Opus 4.6 真的「降智」了吗?

我的判断是:有退化,但没那么夸张;有提升,但也没宣传的那么神。

让我解释一下这个判断的依据:

为什么说「有退化」?

  • 4.6 在「需求理解」和「边界条件」上确实有疏漏,这在工程场景中是致命的;
  • 长文本推理能力下降,可能是因为模型在优化其他能力时,牺牲了部分推理能力。

为什么说「没那么夸张」?

  • 从我的测试数据看,差距主要是「边缘情况」的处理,而不是「核心能力」的崩溃;
  • 很多「降智」的吐槽,其实是对模型能力的误判——模型本来就不是万能的。

为什么说「有提升,但没那么神」?

  • 4.7 的提升主要集中在「长文本推理」和「边界条件理解」,其他能力差距不大;
  • 跑分榜单的排名,很多时候是「营销叙事」,不代表真实体验的巨大飞跃。

这背后的技术真相

最后,聊聊我觉得更深层的问题:为什么会出现这种「降智」现象?

我查了一些资料,发现这其实是大模型训练中的一个经典问题——「灾难性遗忘」(Catastrophic Forgetting)。

简单说,就是模型在学习新知识时,可能会「忘掉」之前学到的一些能力。这在持续训练(Continuous Learning)场景中很常见。

Anthropic 可能在训练 Opus 4.6 时,为了优化某些能力(比如对话流畅度、创意生成),牺牲了部分推理能力。然后在 Opus 4.7 中,通过「数据重放」或「多任务学习」等技术,把这些能力「找回来」了。

这只是我的猜测,但从技术逻辑上是说得通的。

我的建议:别被跑分绑架

说了这么多,最后给开发者一个建议:别被模型跑分绑架。

跑分榜单只是参考,真正重要的是:这个模型在你的具体场景中,表现怎么样。

我见过太多人,因为某个模型「登顶了榜单」,就一股脑地把所有任务都迁移过去,结果发现实际体验并没有宣传的那么好。

正确的做法是:用你的真实任务做测试集,横向对比几个模型的实际表现,再决定用哪个。

这才是「技术理性派」该有的态度。