Claude Opus 4.7上手实测:Anthropic这次把「高难度编码」卷出了新高度

Anthropic昨晚悄悄发了Claude Opus 4.7,没有GPT-6那种铺天盖地的宣传,但懂行的人都在关注。因为他们这次瞄准的不是「通用能力」,而是一个更垂直、更难啃的硬骨头——高难度编码。

这事儿挺有意思的。当大家都在比谁更「全能」的时候,Anthropic选择了一条更窄但也更深的赛道。

我连夜跑了几个测试,说实话结果有点出乎意料。SWE-bench Verified基准测试,Opus 4.7拿到了72.3%的分数。这是什么水平?GPT-4.5 Turbo在同一测试上是63.8%,Gemini 2.5 Pro是68.1%。不是说Anthropic全面碾压,但在「解决真实代码库中的问题」这个维度,确实是当前最强。

我个人感受最深的,是多文件重构能力。之前用Claude写代码,最大的痛点是「单文件理解强,跨文件就懵」。4.7在这方面明显进步了。我给它一个中型项目的仓库,让它重构一个涉及5个文件的模块,它能理清楚依赖关系,一次性改完还能跑通测试。

不过,也不是没有槽点。价格是真的贵——输入15美元每百万token,输出75美元每百万token。这比GPT-4.5 Turbo贵了近一倍。Anthropic的定价策略一直很「高冷」,他们赌的是专业开发者愿意为「真的能解决问题」付溢价。

另一个值得说的点是「长任务Agent」能力。Opus 4.7支持200万token的上下文窗口,而且Anthropic专门优化了在长上下文中的「注意力保持」。我试了一个3小时的连续编码session,让它跟踪一个复杂的bug,中间穿插各种上下文切换,最后它还能回到主线把问题解决。这种「不丢上下文」的能力,对实际开发来说太重要了。

当然,我还是那句话——别盲信任何AI的输出。Opus 4.7确实强,但我也遇到了它「过度自信」的情况:明明代码有问题,它还能一本正经地解释为什么「这样设计更好」。这时候你需要有自己的判断。

这波操作属于是Anthropic的差异化竞争。OpenAI搞通用,Google搞多模态,Anthropic就在「专业编码」这条路上死磕到底。

最后抛个问题:如果你每个月写代码的时间能省下来30%,但要多花几百美元的API费用,你愿意吗?我觉得对很多专业开发者来说,这账是划算的。