Claude Opus 4.7深夜上线：我跑了几个测试，发现这次升级不是表面功夫

Anthropic, AI编程, Claude, Opus 4.7 — 22 4月 2026

4月16号深夜，Anthropic悄咪咪发布了Claude Opus 4.7。

说是悄咪咪，其实动静不小——毕竟Opus系列一直是Claude家族的旗舰，而且这次升级正好是GPT-5.4发布后的第三天。时间卡得这么准，很难不让人联想到是故意为之。

我连夜跑了几组测试，说说真实感受。

首先，最明显的感受是：这玩意儿写代码确实稳了很多。

我拿它重构了一个遗留项目的核心模块，大概3000多行代码。以前用Claude 4.6的时候，经常会遇到一些让人头疼的问题——比如生成的代码看似能跑，但边界条件处理得不对；或者引用的API版本是两年前的。

4.7在这方面改善很明显。不是说完全不会出错，但出错的频率和严重性都下降了。更重要的是，当你指出错误时，它能更快地理解问题所在并给出正确的修复方案。

这种感觉怎么说呢？就像从「一个聪明但毛躁的实习生」进化成了「一个有经验的中级工程师」。

官方的数据也支持这个感受。据说在SWE-bench Verified（一个专门测试模型解决真实GitHub issue能力的基准）上，Opus 4.7的得分比4.6高了不少。这个测试的特点是问题都是真实存在的，不是人工构造的，所以更有参考价值。

但我要泼点冷水。

Opus 4.7的定价还是老样子——输入5美元/百万token，输出15美元/百万token。这个价格放在今天这个各家都在打价格战的市场里，确实不便宜。

而且对于大多数日常任务来说，这个性能提升可能感知并不强。你让它写个简单的脚本、改个配置文件，4.6和4.7的差别可能也就是90分和95分的区别。只有在你真的需要处理复杂工程问题时，这5分的差距才会被放大。

另外我发现一个有趣的现象：Opus 4.7似乎更加「谨慎」了。

以前问它一些问题，它会直接给出答案，哪怕它其实不太确定。现在它会先说明自己的不确定性，然后给出几种可能的方案让你选择。从可靠性角度说这是好事，但从用户体验角度，有些人可能会觉得它变得「犹豫」了。

这其实是AI模型的一个永恒难题：自信度和准确性之间的平衡。太自信容易出错，太谨慎又显得拖沓。Opus 4.7显然是往谨慎那边多走了一步。

还有一个值得关注的点是，Anthropic这次同时发布了一个叫Claude Mythos Preview的东西，专门做网络安全测试的。据说只有英伟达、摩根大通这些合作方才能用。这种专业化、细分化的路线，可能是Anthropic接下来会重点发力的方向。

总的来说，Opus 4.7是一次扎实的升级，不是那种改个版本号的营销噱头。但如果你不是重度编程用户，或者预算有限，我觉得可以继续用4.6，等价格降下来再说。

毕竟，模型是越来越好，但我的钱包可不会自己变厚。

2026年AI战国时代：谁在「造神」，谁在「守夜」，谁在「缝补」