Claude 4.6被曝「降智」:Anthropic的压缩策略惹恼了谁?
说实话,第一次看到「Claude 4.6降智」这个话题的时候,我还以为是模型圈又在搞什么梗。结果点进去一看——好家伙,Reddit和Twitter上已经炸开锅了。
事情是这样的。大概从上周开始,陆续有开发者反馈,说Claude 4.6的输出质量明显下降。不是那种「偶尔抽风」的下降,而是系统性的、可感知的变化。有人贴出了对比截图:同样一段代码审查,两周前的Claude 4.6能指出三个潜在bug,现在只能看出一个,还说「整体看起来不错」。
更离谱的是,有人专门做了测试。同一个Prompt,连续问10次,Claude 4.6的回答长度比一个月前平均短了30%,而且「正确的废话」明显变多了。
这事儿一发酵,Anthropic那边自然坐不住了。官方账号出面回应,说「我们没有对Claude 4.6进行任何会降低质量的改动」。但问题是——用户手里的实测数据就摆在那儿,你说没改,那这质量差是怎么回事?
然后就有技术大佬出来分析了。核心猜测指向一个词:思考token压缩。
简单说,Claude这类推理模型在回答之前会先「想一遍」,生成大量的内部思考token。这些token用户看不见,但极其消耗算力。据说Claude 4.6在高峰期,思考token的数量能达到输出token的5-10倍。
那么问题来了:Anthropic是不是为了省钱,悄悄把思考token给压缩了?
从技术角度说,压缩思考token是完全可行的。你可以设定一个上限,或者让模型早点停下来。但代价也很明显——模型的推理深度会变浅,遇到复杂问题更容易「敷衍了事」。
我翻了一下网上的实测,发现这次「降智」确实有一些规律:
第一,简单问题影响不大。如果你只是让它写个Python脚本,Claude 4.6还是那个Claude 4.6。
第二,复杂推理任务受影响最严重。代码审查、数学证明、多步骤规划——这些原本Claude的强项,现在都能明显感觉到「它在应付」。
第三,长对话更容易触发。有用户反馈,聊个10轮之后,Claude的回答质量会断崖式下跌,像是在说「差不多得了」。
这让我想起一个老朋友跟我说的话:「大模型公司的运营成本和用户体验,永远是在走钢丝。」
Anthropic不是OpenAI,没有微软爸爸输血,也没有ChatGPT那种恐怖的C端收入。他们每一token都要算成本。从这个角度说,压缩思考token不是「要不要」的问题,而是「压多少」的问题。
但问题是——你压之前得告诉用户吧?
这才是最让开发者不爽的地方。如果Anthropic在changelog里写一句「我们优化了推理效率,可能对部分复杂任务有影响」,大家至少心里有数。现在这种「默默改了但死不承认」的做法,说难听点,有点像某些手机厂商的「云控降频」。
我个人觉得这事儿有几种可能:
一种是Anthropic确实在搞A/B测试,部分用户被分到了「精简版」Claude,但官方还没准备好公布。
另一种是成本压力实在太大,不得不在后台做一些动态调整,比如根据负载情况自动压缩思考token。
还有一种更阴谋论的说法:Anthropic在憋大招,Claude 5快出来了,故意把4.6的体验做差一点,好让用户有升级动力。
不管真相是哪种,有一件事是确定的:用户对AI模型的信任正在变得越来越脆弱。
以前大家默认「模型只会越变越好」,现在发现原来还能「偷偷变差」。这种心理落差比技术问题本身更致命。
Anthropic如果还想维持「技术理想主义」的人设,就得想清楚——省钱可以,但省得让用户发现,那就是另一回事了。