Claude Opus 4.7刚发就被「骂降智」,Anthropic这波是不是有点急了?

这事儿挺有意思的。

Claude Opus 4.7发布才几天,开发者的吐槽就已经铺天盖地了。不是夸它强,而是说它「降智」了——复杂任务容易放弃,多步骤推理中间断片,甚至给出「看起来对但实际上错」的答案。

作为一个从Opus 4.5就开始用的老用户,我对这种反馈一点都不意外。

模型迭代中的「质量波动」早就不是新鲜事。

还记得GPT-4刚出来的时候吗?那时候简直是神一般的存在。结果几个月后,网上就开始流传「GPT-4变笨了」的说法。OpenAI死活不承认,但用户的数据不会说谎——同样的问题,同样的prompt,输出质量确实在下降。

Anthropic现在面临的局面差不多。Opus 4.6上线之初口碑不错,但用的人多了,暴露的问题也多了。开发者们发现,这模型在处理复杂工程任务时变得越来越「保守」,动不动就「我觉得这个任务太复杂了,我完成不了」。

问题是,Anthropic这次回应得很快。

4.7版本可以说是「紧急补丁」性质的更新,重点解决的就是「降智」问题。从官方公布的数据来看,编程能力确实有所提升,SWE-bench得分涨到了64.3%。但用户买不买账,又是另一回事。

我个人觉得,Anthropic这次有点急了。

你看它同时还在推Mythos Preview,一个更强大的模型,但只给少数公司和政府机构用。这种「双轨制」策略本身就说明了问题——他们手里有更好的东西,但不敢全放出来。

为什么不敢?

成本。Opus级别的模型运行成本极高,如果每个人都按最高质量来用,Anthropic的账单会爆炸。所以 inevitably,他们得在一些地方做妥协——可能是训练数据的配比,可能是推理时的计算预算,总之就是在「看起来不错」和「成本可控」之间找平衡。

但用户的眼睛是雪亮的。

当一个模型开始频繁说「我不行」的时候,开发者就会开始寻找替代方案。这也是为什么Kimi K2.6、DeepSeek V4这些开源模型有机会——不是因为他们更强,而是因为他们「可用」且「可预期」。

我的看法是:Anthropic需要重新思考产品策略。

与其在Opus上反复打补丁,不如干脆把模型能力分层做得更明确。愿意为质量付费的用户,给最好的模型;想要性价比的,给轻量级版本。现在这样混在一起,两头不讨好。

当然,这只是我个人的看法。你们用Opus 4.7感觉怎么样?