被骂了一个月「降智」之后,Anthropic 终于急了:Opus 4.7 来了,微软还破了例

上个月,GitHub 上一个帖子炸了。

AMD 的一位资深工程师发了条帖子,标题就一句话:「Claude 已经退化到无法信任执行复杂工程任务了」。

不是那种「感觉不太好用」的吐槽,是直接贴证据、贴日志、贴对比测试结果那种控诉。

然后帖子下面, hundreds of developers 冒出来说「对对对我也发现了」「4.6 写代码越来越保守」「多步骤任务经常中途放弃然后给一个看起来对但实际跑不通的答案」。

我那时候正好在用一个 Claude 4.6 的项目,说实话也有同感——这模型怎么越来越「乖」了,就是那种「不敢做决策、给答案越来越稳妥」的感觉。以前那个敢下手、敢预测、敢给你一个激进方案 Claude 去哪了?

说实话,那段时间我以为是自己的 prompt 写得有问题,或者是我问的问题太刁钻。但看到这么多人同时吐槽,我就知道这不是个案了。

「降智」这个帽子,Claude 4.6 戴了差不多一个月。

然后,4月16日,Anthropic 突然发布了 Opus 4.7。

不是那种例行公事的更新,是一次紧急「补救」——至少我是这么看的。公告里花了大篇幅讲软件工程能力提升、视觉理解分辨率提升,但社区最关心的问题是:这次能不能把「聪明」的 Claude 找回来?

很快,微软给出了另一个答案。

4月17日,IT之家报道了一个让很多人意外的消息:微软在 GitHub Copilot 等 9 大开发环境中,首日集成支持了 Claude Opus 4.7。

注意这个「首日」。

微软和 OpenAI 的关系大家都知道,深度绑定、排他性合作那种。但这次,微软没有等,没有「 exclusive window」,Claude Opus 4.7 发布当天,GitHub Copilot 就支持了。

这意味着什么?

我先说我的判断:这不代表微软和 OpenAI 的关系出了问题,但确实说明 Claude 在编程这个场景上,已经强到让微软不得不放下「排他」的历史包袱。

GitHub Copilot 的核心场景是代码补全、代码生成、代码解释。这些能力,Claude 一直做得不错。但更关键的是,Claude 4.6/4.7 在复杂工程任务上的能力——理解大型代码库、多文件协同处理、debug 能力——这些才是让微软真正坐不住的地方。

有意思的是,Claude 4.7 发布后,社区反馈是分裂的。

一部分开发者说「4.7 确实好了,复杂任务处理明显更稳了」;另一部分说「还是不如 4.5,甚至不如 4.6」;还有人说「价格比 4.6 贵 50%,这涨价涨得有点离谱」。

Reddit 上的 ClaudeAI 社区已经有人在刷「还我 4.6」了。

所以这波操作下来,我的感受是:Anthropic 在被骂了一个月之后,至少在工程层面做了修复,但代价是价格也上去了。微软愿意「破例」集成,说明 Claude 在编程场景的价值已经被市场验证,但至于用户买不买单,那是另一回事。

我现在还在用 4.6,等 4.7 的更完整测评出来再说。各位如果也在用 Claude 做编程,有没有感觉到「降智」这事儿?


倾向性问题

你在用 Claude 或其他 AI 编程工具时,有没有感觉到模型能力在不同时期有「起伏」?你觉得这是模型本身的问题,还是算力分配、商业决策导致的?