Claude 4.6被曝「降智」：Anthropic的压缩策略惹恼了谁？

Anthropic, Claude, AI模型质量, 大模型评测 — 22 4月 2026

说实话，第一次看到「Claude 4.6降智」这个话题的时候，我还以为是模型圈又在搞什么梗。结果点进去一看——好家伙，Reddit和Twitter上已经炸开锅了。

事情是这样的。大概从上周开始，陆续有开发者反馈，说Claude 4.6的输出质量明显下降。不是那种「偶尔抽风」的下降，而是系统性的、可感知的变化。有人贴出了对比截图：同样一段代码审查，两周前的Claude 4.6能指出三个潜在bug，现在只能看出一个，还说「整体看起来不错」。

更离谱的是，有人专门做了测试。同一个Prompt，连续问10次，Claude 4.6的回答长度比一个月前平均短了30%，而且「正确的废话」明显变多了。

这事儿一发酵，Anthropic那边自然坐不住了。官方账号出面回应，说「我们没有对Claude 4.6进行任何会降低质量的改动」。但问题是——用户手里的实测数据就摆在那儿，你说没改，那这质量差是怎么回事？

然后就有技术大佬出来分析了。核心猜测指向一个词：思考token压缩。

简单说，Claude这类推理模型在回答之前会先「想一遍」，生成大量的内部思考token。这些token用户看不见，但极其消耗算力。据说Claude 4.6在高峰期，思考token的数量能达到输出token的5-10倍。

那么问题来了：Anthropic是不是为了省钱，悄悄把思考token给压缩了？

从技术角度说，压缩思考token是完全可行的。你可以设定一个上限，或者让模型早点停下来。但代价也很明显——模型的推理深度会变浅，遇到复杂问题更容易「敷衍了事」。

我翻了一下网上的实测，发现这次「降智」确实有一些规律：

第一，简单问题影响不大。如果你只是让它写个Python脚本，Claude 4.6还是那个Claude 4.6。

第二，复杂推理任务受影响最严重。代码审查、数学证明、多步骤规划——这些原本Claude的强项，现在都能明显感觉到「它在应付」。

第三，长对话更容易触发。有用户反馈，聊个10轮之后，Claude的回答质量会断崖式下跌，像是在说「差不多得了」。

这让我想起一个老朋友跟我说的话：「大模型公司的运营成本和用户体验，永远是在走钢丝。」

Anthropic不是OpenAI，没有微软爸爸输血，也没有ChatGPT那种恐怖的C端收入。他们每一token都要算成本。从这个角度说，压缩思考token不是「要不要」的问题，而是「压多少」的问题。

但问题是——你压之前得告诉用户吧？

这才是最让开发者不爽的地方。如果Anthropic在changelog里写一句「我们优化了推理效率，可能对部分复杂任务有影响」，大家至少心里有数。现在这种「默默改了但死不承认」的做法，说难听点，有点像某些手机厂商的「云控降频」。

我个人觉得这事儿有几种可能：

一种是Anthropic确实在搞A/B测试，部分用户被分到了「精简版」Claude，但官方还没准备好公布。

另一种是成本压力实在太大，不得不在后台做一些动态调整，比如根据负载情况自动压缩思考token。

还有一种更阴谋论的说法：Anthropic在憋大招，Claude 5快出来了，故意把4.6的体验做差一点，好让用户有升级动力。

不管真相是哪种，有一件事是确定的：用户对AI模型的信任正在变得越来越脆弱。

以前大家默认「模型只会越变越好」，现在发现原来还能「偷偷变差」。这种心理落差比技术问题本身更致命。

Anthropic如果还想维持「技术理想主义」的人设，就得想清楚——省钱可以，但省得让用户发现，那就是另一回事了。

2026年AI战国时代：谁在「造神」，谁在「守夜」，谁在「缝补」