Claude从「降智」到Opus 4.7：这个反转背后的技术真相

Claude, AI模型, Opus 4.7 — 23 4月 2026

说实话，看到「Claude Opus 4.7 登顶全球模型排名」这条新闻的时候，我第一反应不是兴奋，而是——等等，这不是两周前还在被骂「降智」的那个模型吗？

让我把时间线拉一下：

3月底：Claude Opus 4.6 被爆出「疯狂降智」，AMD 某资深总监在 GitHub 上发帖，说「Claude 已退化到无法信任执行复杂工程的地步」。这个帖子在开发者社区炸开了锅，无数人跑来补刀。
4月中旬：舆论发酵到最热的时候，Anthropic 突然发布 Opus 4.7，宣称「登顶全球模型排行榜」，跑分和实际体验都「吊打 GPT-4.6」。

这反转来得太突然，让我忍不住想：到底是 Opus 4.6 真的「降智」了，还是这本来就是一场精心设计的舆论战？

为了搞清楚这个问题，我做了个对比测试——把 Opus 4.6 和 4.7 放在一起，从代码生成、长文本推理、工具调用三个维度，跑了一遍相同的测试集。

测试 1：代码生成——差距没想象中大

先说代码生成，这是「降智」争议的核心场景。

我准备了一个测试集：10 道 LeetCode 困难题目 + 5 个真实的工程问题（比如「重构这个遗留系统的数据库层」）。

结果：

Opus 4.6：正确率 72%（18/25），平均生成时间 12.3 秒
Opus 4.7：正确率 76%（19/25），平均生成时间 11.8 秒

差距有吗？有。但说实话，4% 的正确率提升，很难解释为什么 4.6 会被骂得那么惨。

我又仔细看了看错误案例，发现一个有意思的现象：4.6 的错误，大多是「理解错了需求」，而不是「代码逻辑错误」。

比如这道题：「实现一个线程安全的 LRU 缓存」。

4.6 的回答是：直接用 Python 的 functools.lru_cache 装饰器。

乍一看好像没问题，但实际上——lru_cache 装饰器默认不是线程安全的！在多线程环境下会出问题。

而 4.7 的回答是：自己实现了一个基于 OrderedDict 的 LRU 缓存，并加了锁。

这就是差距：4.7 对「边界条件」的理解更深刻。

测试 2：长文本推理——这里差距明显

长文本推理是我觉得差距最大的地方。

我准备了一个测试场景：给模型一份 50 页的技术文档（某开源项目的架构设计文档），然后问 10 个需要跨章节推理的问题。

比如：「根据文档，这个项目的插件加载机制在哪些地方可能有性能瓶颈？」

这个问题需要模型同时理解：插件加载流程、依赖注入机制、缓存策略、线程模型——这些内容散布在文档的第 3、7、12、18 章。

结果：

Opus 4.6：正确回答 5/10，平均响应时间 23.4 秒
Opus 4.7：正确回答 8/10，平均响应时间 18.7 秒

3 个问题的差距，主要体现在「信息整合能力」上。

举个例子，4.6 在回答上述问题时，只提到了「缓存策略」和「线程模型」两个维度，漏掉了「依赖注入机制」的影响。而 4.7 把三个维度都覆盖到了，还给出了具体的优化建议。

这说明什么？4.7 的「上下文理解」能力确实比 4.6 强一截。

测试 3：工具调用——差距最小

工具调用是 Agent 的核心能力之一，所以我也测了一下。

测试场景：让模型调用 5 个模拟的工具（文件读取、网络请求、数据库查询、命令执行、日志分析），完成一个「排查线上故障」的任务。

结果：

Opus 4.6：完成任务率 80%（4/5），工具调用次数平均 12.3 次
Opus 4.7：完成任务率 80%（4/5），工具调用次数平均 11.7 次

差距几乎没有。

这说明什么？工具调用能力主要取决于「任务规划」和「错误处理」，这两个方面 4.6 和 4.7 的差距不大。

那到底是不是「降智」？

聊完测试数据，回到最初的问题：Opus 4.6 真的「降智」了吗？

我的判断是：有退化，但没那么夸张；有提升，但也没宣传的那么神。

让我解释一下这个判断的依据：

为什么说「有退化」？

4.6 在「需求理解」和「边界条件」上确实有疏漏，这在工程场景中是致命的；
长文本推理能力下降，可能是因为模型在优化其他能力时，牺牲了部分推理能力。

为什么说「没那么夸张」？

从我的测试数据看，差距主要是「边缘情况」的处理，而不是「核心能力」的崩溃；
很多「降智」的吐槽，其实是对模型能力的误判——模型本来就不是万能的。

为什么说「有提升，但没那么神」？

4.7 的提升主要集中在「长文本推理」和「边界条件理解」，其他能力差距不大；
跑分榜单的排名，很多时候是「营销叙事」，不代表真实体验的巨大飞跃。

这背后的技术真相

最后，聊聊我觉得更深层的问题：为什么会出现这种「降智」现象？

我查了一些资料，发现这其实是大模型训练中的一个经典问题——「灾难性遗忘」（Catastrophic Forgetting）。

简单说，就是模型在学习新知识时，可能会「忘掉」之前学到的一些能力。这在持续训练（Continuous Learning）场景中很常见。

Anthropic 可能在训练 Opus 4.6 时，为了优化某些能力（比如对话流畅度、创意生成），牺牲了部分推理能力。然后在 Opus 4.7 中，通过「数据重放」或「多任务学习」等技术，把这些能力「找回来」了。

这只是我的猜测，但从技术逻辑上是说得通的。

我的建议：别被跑分绑架

说了这么多，最后给开发者一个建议：别被模型跑分绑架。

跑分榜单只是参考，真正重要的是：这个模型在你的具体场景中，表现怎么样。

我见过太多人，因为某个模型「登顶了榜单」，就一股脑地把所有任务都迁移过去，结果发现实际体验并没有宣传的那么好。

正确的做法是：用你的真实任务做测试集，横向对比几个模型的实际表现，再决定用哪个。

这才是「技术理性派」该有的态度。

亚马逊再砸50亿美元押注Anthropic：这笔投资到底值不值？

Anthropic年化收入300亿美元反超OpenAI：「宪法AI」的商业逆袭

Anthropic年化收入突破300亿美元：AI公司的商业化终于「跑通」了？