Claude 「降智」风波背后：大模型厂商的「成本控制」困局

大模型, Anthropic, AI成本, Claude — 22 4月 2026

上周有个事在开发者圈子里传得挺火：Claude Opus 4.7好像「变笨」了。

一开始是Reddit上几个帖子，说同样的prompt，输出质量明显下降。后来Twitter上开始有人贴对比截图，Anthropic的客服账号下面挤满了抱怨的用户。

我第一时间去测了一下，说实话，感受没那么明显——可能是因为我平时的使用场景比较常规。但看了那些对比案例，确实有些长推理任务的表现不如之前稳定。

Anthropic官方的回应很有意思。他们没有直接承认「降智」，但提到「正在优化推理token的使用效率」。翻译一下就是：我们在压缩成本，可能会有副作用。

这事让我想明白了一个问题：大模型厂商现在面临的是一个结构性矛盾。

一边是用户对模型能力的期待越来越高。GPT-6刚发布，40%的性能提升把基准线又往上拉了一截。Claude如果不跟进，市场份额就会被蚕食。

另一边是推理成本的爆炸式增长。Opus 4.7比4.6复杂了不少，如果按原来的标准满血运行，Anthropic的GPU账单可能会翻倍。在融资环境收紧的今天，这不是小数目。

所以「降智」很可能不是故意的，而是「成本控制」的副产品。通过减少推理token的生成、简化内部思考链条，可以在不明显影响短任务表现的前提下，大幅降低计算开销。但副作用就是长任务和复杂推理的稳定性下降。

这事有点像视频网站的「动态码率」。网络好的时候给你高清，网络拥堵的时候自动降质。问题是，大模型的用户并不知道自己正在看「标清版」。

更深一层的问题是：模型的「智商」到底是什么？

如果我们把大模型看作一个黑盒，它的输出质量取决于很多因素：训练数据、模型架构、推理时的计算资源、甚至随机种子。厂商可以在不重新训练模型的情况下，通过调整推理参数来改变「有效智能水平」。

这就引出了一个令人不安的可能性：我们永远不知道当前调用的API是不是「满血版」。

相比之下，开源模型在这方面反而有优势。Llama、DeepSeek这些模型的权重是公开的，你可以自己在硬件上跑，参数完全可控。虽然性能可能不如顶级闭源模型，但至少不会「被降智」。

当然， Anthropic也不是故意要坑用户。他们的处境我理解——要在激烈的竞争中活下去，必须平衡成本和体验。但这个平衡点的把握，确实考验厂商的良心。

有个建议给正在选型的开发者：如果你是做严肃的商业应用，建议同时接入多个模型，做AB测试和降级方案。不要把所有鸡蛋放在一个篮子里，也不要盲信任何一家的「满血承诺」。

另外，可以考虑在关键流程中加入「质量监控」机制。比如对模型的输出做一致性校验，如果发现某个时段的质量明显波动，自动切换到备用模型。

说到底，大模型服务正在从「新鲜事物」变成「基础设施」。作为基础设施，稳定性和可预期性比偶尔惊艳的表现更重要。厂商们可能还没完全适应这个角色转变。

你遇到过模型「降智」的情况吗？

18家大模型厂商搞了个"行业公约"，这次能管用吗？