Claude Opus 4.7突然发布:Anthropic终于回应「降智」质疑,但我有不一样的看法
上周打开Claude的时候,说实话我有点心虚。
不是因为要聊什么敏感话题,而是因为过去一个月,开发者圈子里关于Claude「降智」的抱怨实在太多了。Opus 4.6刚出来的时候口碑还不错,但渐渐地,越来越多的人发现:这模型在处理复杂工程任务时变得越来越「保守」,多步骤任务做到一半就放弃,甚至开始给出「看起来合理但其实是错的」回答。
更别提Anthropic那一连串让人无语的操作:2月9日把adaptive thinking改成默认,3月3日把effort从满格降到85,3月26日还偷偷加速了5小时限额的消耗速度。
所以当我看到Claude Opus 4.7发布的消息时,第一反应是:终于来了。
这次升级到底提升了什么?
先说结论:编程能力确实大幅提升。
根据Cursor团队的测试数据,Opus 4.7在复杂编码任务上的基准分达到了64.3%,比4.6版本有明显提升。更重要的是,它在处理长上下文、多文件工程任务时的稳定性改善了很多。
我亲自试了一下,让它帮我重构一个几千行的Python项目。4.6版本经常做到一半就开始「失忆」,忘记自己前面的设计决策。4.7这次居然一口气完成了,中途没有让我提醒任何上下文。
视觉能力也有提升。我之前用4.6分析技术架构图,经常识别错组件之间的关系。4.7在这方面的准确率明显更高了。
但最让我意外的是:定价没涨。还是输入5美元/百万token,输出25美元/百万token。在这个各家都在涨价的年代,Anthropic这波算是良心了。
「降智」争议背后的真相
好了,说回那个敏感话题。
过去一个月,我几乎每天都在用各种AI编程工具。Claude、GPT、Gemini、国内的模型,轮番上阵。说实话,我切身感受到了那种「模型变笨了」的沮丧。
但等等,事情真的这么简单吗?
我仔细想了一下,发现几个有意思的点:
第一,所谓的「降智」,很多时候可能是我们的预期在变化。几个月前,我们对AI编程助手的要求是「帮我补全代码」。现在,我们希望它「帮我重构整个项目」。任务复杂度提升了,但模型的能力边界没变,落差感自然就出来了。
第二,Anthropic确实有调整模型的「努力程度」参数,但这不等于模型本身变差了。更可能的情况是:他们在做A/B测试,或者是在控制成本。毕竟,满血Opus的推理成本是真的高。
第三,也是最重要的一点:我们太容易把AI拟人化了。模型没有「意愿」,不会「偷懒」。它的表现波动,要么是训练数据的问题,要么是推理时的采样随机性,要么是上下文管理的问题。
我的建议
如果你也是AI编程工具的重度用户,我的建议是:
别把鸡蛋放在一个篮子里。Claude强在代码理解和长上下文,GPT强在工具生态和插件,Gemini强在多模态。根据任务类型灵活切换,比死守一个模型更靠谱。
学会管理上下文。再强的模型,上下文窗口也是有限的。把无关的文件关掉,把关键的决策点用注释标出来,能大幅提升AI的表现。
最后,保持合理的预期。AI编程助手是「助手」,不是「替代品」。它能帮你提速,但不能替你思考。
Opus 4.7的发布,至少说明Anthropic还在认真做产品。这波能不能挽回用户的信任,还得看后续的表现。我会继续观察,也欢迎大家在评论区分享你的使用体验。