Claude Opus 4.7正式发布: Anthropic把「代码之王」的门槛又抬高了

4月16日,Anthropic放出了Claude Opus 4.7。

官方通稿写得挺谦虚:「在93道代码任务基准上比Opus 4.6提升13%」。

但懂行的人一看就明白——这不是13%的问题,这是「解决了Opus 4.6和Sonnet 4.6都搞不定的四道题」。

说白了,前代模型卡住的bug,4.7能修了。这才是关键。

我第一时间试了试。拿了一个之前Claude一直搞不定的Python并发问题扔给它——一个涉及asyncio、threading和信号量控制的边界case。

结果?

它不光给出了正确的代码,还在注释里解释了「为什么之前的方法会race condition」。

说实话,这有点超纲了。我期待的只是「能跑就行」,它给的是「能跑,而且告诉你为什么能跑」。

但4.7最聪明的地方不是代码能力,是「知道自己不知道」。

低思考档位的4.7,大致等价于中等思考档位的4.6。这意味着什么?意味着你可以用更少的token、更快的速度,获得差不多的效果。

在API成本这件事上,Anthropic终于开始动脑子了。

价格没涨,还是每百万输入token 5美元。这个定价策略很有意思——性能提升不加价,相当于变相降价。

不过我也发现了一个小问题。4.7在某些「创造性代码」场景下,反而比4.6保守了。比如让它写一个「有点hacky但能用」的脚本,4.7会倾向于给出一个「更正确但更啰嗦」的方案。

这可能是Alignment trade-off的结果——更安全,但少了点灵气。

说到「代码之王」这个称号,我觉得有必要泼点冷水。

Claude在代码上的优势,主要集中在「理解复杂逻辑」和「生成规范代码」这两个维度。但在「创意编程」和「快速原型」上,GPT-5.4 Pro的表现其实更好。

所以「代码之王」不是绝对的,是相对的。取决于你的使用场景。

如果你是个需要处理legacy codebase的工程师,4.7可能是目前最好的选择。它的「读懂别人写的烂代码」能力,确实比其他模型强一档。

这让我想起一个有意思的现象:

AI编程工具正在分化成两条路线。 一条是Claude这种「专业助手」路线——帮你写正确、规范、可维护的代码。另一条是GPT那种「灵感伙伴」路线——帮你快速验证想法,不管代码质量。

两种路线没有高下之分,只有适合不适合。

4.7的发布,让Claude在专业路线上走得更远了。