Claude Code被AMD AI负责人公开开炮：AI编程工具「变笨」争议始末

Anthropic, AI编程, Claude Code, 争议 — 21 4月 2026

AI编程圈又吵起来了。

这次的主角是Anthropic的Claude Code和AMD的AI团队负责人Stella Laurenzo。事情是这样的：Laurenzo在GitHub上发了一份深度分析报告，说Claude Code在一次更新后”思考深度”暴跌67%，在复杂工程任务里开始系统性地选择最省事的方案——不先读代码就改、任务没完成就停、遇到问题先甩锅。

好家伙，这话说得够狠的。

先看看这个报告说了什么

根据Laurenzo的描述，她对比了更新前后的Claude Code在SWE-bench等专业基准上的表现，发现模型在复杂任务中的”决策质量”有明显下降。具体表现为：更倾向于给出最短路径的解决方案，而不是最正确的；遇到需要深度推理的bug，倾向于返回表面修复而非根本原因分析。

有意思的是，Anthropic官方也回应了，说是”模型更新导致的正常波动”，但没有给出具体的技术解释。

我的看法

说实话，这件事我没法轻易下结论。

一方面，Laurenzo是AMD AI团队负责人，不是那种”随便说说”的人，她有数据有分析，说服力是有的。

另一方面，AI模型的能力波动是个很复杂的问题。基准测试分数下降，可能是模型真的退化了，也可能是benchmark本身被污染了，或者是测试用例的分布发生了变化。Laurenzo的报告很详细，但她测的到底是”Claude Code变笨了”，还是”Claude Code在某些类型的任务上表现变了”，这两个命题差别很大。

更让我在意的是另一个问题：Anthropic为什么没有给出详细的技术说明？如果真的是”正常波动”，技术团队应该能解释清楚是哪些参数、哪些机制导致了变化。沉默本身，就是一个信号。

对行业的影响

不管事实如何，这件事撕开了一个口子：AI编程工具到底靠不靠谱？Claude Code可是Anthropic的旗舰产品，尚且被质疑”变笨”，那其他工具呢？

SWE-bench刚火的时候，所有人都在说”AI编程接近人类水平了”。现在回头看，这个结论下得太早了。AI在编程任务上的能力，很大程度上取决于任务类型和提示词质量。脱离具体场景谈”AI编程能力”，意义有限。

我个人的建议是：别把AI编程工具当成万能钥匙，它更适合做辅助——帮你写模板代码、解释你不熟悉的代码段、做一些重复性的改动。真正的架构决策和复杂bug，还是得靠人。

至于Claude Code到底变没变笨，我觉得需要更多独立第三方的复现验证。在那之前，我选择不站队。

2026年AI战国时代：谁在「造神」，谁在「守夜」，谁在「缝补」

AI编程工具调研报告：企业开发者都在用哪些工具？

OpenAI和Anthropic突然达成共识：2026年，「能力溢出」比「模型更强」更重要

相关推荐