Claude Opus 4.7深夜上线:我跑了几个测试,发现这次升级不是表面功夫
4月16号深夜,Anthropic悄咪咪发布了Claude Opus 4.7。
说是悄咪咪,其实动静不小——毕竟Opus系列一直是Claude家族的旗舰,而且这次升级正好是GPT-5.4发布后的第三天。时间卡得这么准,很难不让人联想到是故意为之。
我连夜跑了几组测试,说说真实感受。
首先,最明显的感受是:这玩意儿写代码确实稳了很多。
我拿它重构了一个遗留项目的核心模块,大概3000多行代码。以前用Claude 4.6的时候,经常会遇到一些让人头疼的问题——比如生成的代码看似能跑,但边界条件处理得不对;或者引用的API版本是两年前的。
4.7在这方面改善很明显。不是说完全不会出错,但出错的频率和严重性都下降了。更重要的是,当你指出错误时,它能更快地理解问题所在并给出正确的修复方案。
这种感觉怎么说呢?就像从「一个聪明但毛躁的实习生」进化成了「一个有经验的中级工程师」。
官方的数据也支持这个感受。据说在SWE-bench Verified(一个专门测试模型解决真实GitHub issue能力的基准)上,Opus 4.7的得分比4.6高了不少。这个测试的特点是问题都是真实存在的,不是人工构造的,所以更有参考价值。
但我要泼点冷水。
Opus 4.7的定价还是老样子——输入5美元/百万token,输出15美元/百万token。这个价格放在今天这个各家都在打价格战的市场里,确实不便宜。
而且对于大多数日常任务来说,这个性能提升可能感知并不强。你让它写个简单的脚本、改个配置文件,4.6和4.7的差别可能也就是90分和95分的区别。只有在你真的需要处理复杂工程问题时,这5分的差距才会被放大。
另外我发现一个有趣的现象:Opus 4.7似乎更加「谨慎」了。
以前问它一些问题,它会直接给出答案,哪怕它其实不太确定。现在它会先说明自己的不确定性,然后给出几种可能的方案让你选择。从可靠性角度说这是好事,但从用户体验角度,有些人可能会觉得它变得「犹豫」了。
这其实是AI模型的一个永恒难题:自信度和准确性之间的平衡。太自信容易出错,太谨慎又显得拖沓。Opus 4.7显然是往谨慎那边多走了一步。
还有一个值得关注的点是,Anthropic这次同时发布了一个叫Claude Mythos Preview的东西,专门做网络安全测试的。据说只有英伟达、摩根大通这些合作方才能用。这种专业化、细分化的路线,可能是Anthropic接下来会重点发力的方向。
总的来说,Opus 4.7是一次扎实的升级,不是那种改个版本号的营销噱头。但如果你不是重度编程用户,或者预算有限,我觉得可以继续用4.6,等价格降下来再说。
毕竟,模型是越来越好,但我的钱包可不会自己变厚。