Claude 「降智」风波背后:大模型厂商的「成本控制」困局

上周有个事在开发者圈子里传得挺火:Claude Opus 4.7好像「变笨」了。

一开始是Reddit上几个帖子,说同样的prompt,输出质量明显下降。后来Twitter上开始有人贴对比截图,Anthropic的客服账号下面挤满了抱怨的用户。

我第一时间去测了一下,说实话,感受没那么明显——可能是因为我平时的使用场景比较常规。但看了那些对比案例,确实有些长推理任务的表现不如之前稳定。

Anthropic官方的回应很有意思。他们没有直接承认「降智」,但提到「正在优化推理token的使用效率」。翻译一下就是:我们在压缩成本,可能会有副作用。

这事让我想明白了一个问题:大模型厂商现在面临的是一个结构性矛盾。

一边是用户对模型能力的期待越来越高。GPT-6刚发布,40%的性能提升把基准线又往上拉了一截。Claude如果不跟进,市场份额就会被蚕食。

另一边是推理成本的爆炸式增长。Opus 4.7比4.6复杂了不少,如果按原来的标准满血运行,Anthropic的GPU账单可能会翻倍。在融资环境收紧的今天,这不是小数目。

所以「降智」很可能不是故意的,而是「成本控制」的副产品。通过减少推理token的生成、简化内部思考链条,可以在不明显影响短任务表现的前提下,大幅降低计算开销。但副作用就是长任务和复杂推理的稳定性下降。

这事有点像视频网站的「动态码率」。网络好的时候给你高清,网络拥堵的时候自动降质。问题是,大模型的用户并不知道自己正在看「标清版」。

更深一层的问题是:模型的「智商」到底是什么?

如果我们把大模型看作一个黑盒,它的输出质量取决于很多因素:训练数据、模型架构、推理时的计算资源、甚至随机种子。厂商可以在不重新训练模型的情况下,通过调整推理参数来改变「有效智能水平」。

这就引出了一个令人不安的可能性:我们永远不知道当前调用的API是不是「满血版」。

相比之下,开源模型在这方面反而有优势。Llama、DeepSeek这些模型的权重是公开的,你可以自己在硬件上跑,参数完全可控。虽然性能可能不如顶级闭源模型,但至少不会「被降智」。

当然, Anthropic也不是故意要坑用户。他们的处境我理解——要在激烈的竞争中活下去,必须平衡成本和体验。但这个平衡点的把握,确实考验厂商的良心。

有个建议给正在选型的开发者:如果你是做严肃的商业应用,建议同时接入多个模型,做AB测试和降级方案。不要把所有鸡蛋放在一个篮子里,也不要盲信任何一家的「满血承诺」。

另外,可以考虑在关键流程中加入「质量监控」机制。比如对模型的输出做一致性校验,如果发现某个时段的质量明显波动,自动切换到备用模型。

说到底,大模型服务正在从「新鲜事物」变成「基础设施」。作为基础设施,稳定性和可预期性比偶尔惊艳的表现更重要。厂商们可能还没完全适应这个角色转变。

你遇到过模型「降智」的情况吗?