Claude Code被AMD AI负责人公开开炮:AI编程工具「变笨」争议始末
AI编程圈又吵起来了。
这次的主角是Anthropic的Claude Code和AMD的AI团队负责人Stella Laurenzo。事情是这样的:Laurenzo在GitHub上发了一份深度分析报告,说Claude Code在一次更新后”思考深度”暴跌67%,在复杂工程任务里开始系统性地选择最省事的方案——不先读代码就改、任务没完成就停、遇到问题先甩锅。
好家伙,这话说得够狠的。
先看看这个报告说了什么
根据Laurenzo的描述,她对比了更新前后的Claude Code在SWE-bench等专业基准上的表现,发现模型在复杂任务中的”决策质量”有明显下降。具体表现为:更倾向于给出最短路径的解决方案,而不是最正确的;遇到需要深度推理的bug,倾向于返回表面修复而非根本原因分析。
有意思的是,Anthropic官方也回应了,说是”模型更新导致的正常波动”,但没有给出具体的技术解释。
我的看法
说实话,这件事我没法轻易下结论。
一方面,Laurenzo是AMD AI团队负责人,不是那种”随便说说”的人,她有数据有分析,说服力是有的。
另一方面,AI模型的能力波动是个很复杂的问题。基准测试分数下降,可能是模型真的退化了,也可能是benchmark本身被污染了,或者是测试用例的分布发生了变化。Laurenzo的报告很详细,但她测的到底是”Claude Code变笨了”,还是”Claude Code在某些类型的任务上表现变了”,这两个命题差别很大。
更让我在意的是另一个问题:Anthropic为什么没有给出详细的技术说明?如果真的是”正常波动”,技术团队应该能解释清楚是哪些参数、哪些机制导致了变化。沉默本身,就是一个信号。
对行业的影响
不管事实如何,这件事撕开了一个口子:AI编程工具到底靠不靠谱?Claude Code可是Anthropic的旗舰产品,尚且被质疑”变笨”,那其他工具呢?
SWE-bench刚火的时候,所有人都在说”AI编程接近人类水平了”。现在回头看,这个结论下得太早了。AI在编程任务上的能力,很大程度上取决于任务类型和提示词质量。脱离具体场景谈”AI编程能力”,意义有限。
我个人的建议是:别把AI编程工具当成万能钥匙,它更适合做辅助——帮你写模板代码、解释你不熟悉的代码段、做一些重复性的改动。真正的架构决策和复杂bug,还是得靠人。
至于Claude Code到底变没变笨,我觉得需要更多独立第三方的复现验证。在那之前,我选择不站队。