Claude Opus 4.7 来了:代码能力提升 13%,Anthropic 这次更新有点低调

Anthropic 这家公司有个特点:产品更新特别低调。

不像某些公司(就不点名了),每次模型升级都要搞个线上发布会,请一堆媒体,CEO 站在台上激情演讲半小时。Anthropic 就是默默把模型更新了,然后发一篇技术博客,结束了。

Claude Opus 4.7 也是这样。4 月 16 日悄悄上线,如果不是我每天刷他们的 API 文档,差点就错过了。

但这次更新内容还挺多的,值得聊聊。

代码能力提升 13%:怎么做到的

先说最直接的变化:Opus 4.7 在 HumanEval 和 MBPP 这两个编码基准测试上,平均提升了 13%。

13% 听起来不多,但你要知道,Opus 4.6 已经是这个领域的第一梯队了。从 90% 提升到 93%,难度比从 60% 提升到 70% 大得多。

我翻了一下他们的技术博客,发现了几个关键改进:

训练数据增加代码执行反馈。之前模型训练时,只看代码的「静态正确性」(能不能编译通过)。这次他们加了一个执行环境,模型生成的代码会被实际运行,然后根据执行结果(有没有 bug、性能怎么样)来调整训练权重。

这事儿挺重要的。因为很多代码「看着对,跑起来是错的」。比如一个排序算法,语法完全正确,但时间复杂度是 O(n²),处理大数据集时直接爆炸。有了执行反馈,模型就能学会「不仅要写对,还要写得好」。

引入「验证模式」。Opus 4.7 新增了一个能力:在生成代码后,自动生成一套测试用例,验证自己的输出是否正确。如果测试失败,模型会尝试修复。

这个能力其实是「Chain of Verification」思路的实现——让模型自己检查自己。实际测试中,开启验证模式后,代码正确率能再提升 5-8 个百分点。

推理努力级别的细化。之前 Claude 的推理努力有三个级别:low、medium、high。Opus 4.7 新增了一个「xhigh」级别,专门针对超复杂任务。

我试了一下,在 xhigh 模式下,模型生成一段复杂算法的时间从 3 秒变成了 8 秒,但正确率确实更高了。对,延迟会增加,但如果你在做代码审查、架构设计这种「错一次代价很大」的任务,这个 trade-off 是值得的。

高分辨率图像支持:不只是「能看」

另一个重要更新是,Opus 4.7 支持高达 3.75 兆像素的图像输入。

什么概念?一张 iPhone 15 Pro 拍的照片,大概是 12 兆像素。3.75 兆像素相当于把原图缩小到 1/3,然后输入模型。

这个能力有什么用?

我测试了一个场景:把一整页代码截图丢给模型,让它分析代码逻辑。之前用 Opus 4.6,图片稍微糊一点,模型就认不出变量名。现在用 4.7,即使是 4k 显示器的完整截图,模型也能准确识别每一个字符。

还有一个更有趣的应用:处理技术文档。很多技术文档是 PDF 扫描版,包含大量图表和代码片段。以前需要先用 OCR 提取文本,再交给模型处理。现在可以直接把整页文档截图丢给 Opus 4.7,它能同时理解文本、图表和代码,还能处理复杂的排版。

自验证能力:模型开始「自我怀疑」了

Opus 4.7 的另一个新能力是「自验证」。

简单说,模型在给出答案之前,会先问自己几个问题:

  • 我有没有遗漏重要信息?
  • 我的推理过程有没有逻辑漏洞?
  • 有没有可能存在其他解释?

如果模型发现潜在问题,它会重新推理,或者明确告诉你「我不确定」。

这个能力在处理复杂问题时特别有用。比如我之前让模型分析一个复杂的分布式系统架构,Opus 4.6 会直接给出一个「看起来很合理」的答案,但细节经不起推敲。

Opus 4.7 则会在回答时标注:「这里有一个假设,我不确定是否正确,需要更多信息」。这种「知道自己不知道什么」的能力,是模型可靠性的重要提升。

实际体验:几个值得说的细节

我把 Opus 4.7 用了一周,发现几个值得分享的细节:

对中文代码注释理解更好了。之前用 Claude 处理包含中文注释的代码,模型经常会「漏看」注释内容。Opus 4.7 这方面有明显改进,能准确理解中文注释的语义。

长代码处理更稳定。测试了一个 5000 行的 Python 文件,Opus 4.7 能从头到尾保持一致的上下文理解,不会在中途「失忆」。

价格没变。这事儿挺良心的。很多模型公司升级后都会涨价,但 Opus 4.7 的 API 价格跟 4.6 一样。考虑到性能提升,相当于加量不加价。

对开发者意味着什么

说实话,Opus 4.7 的更新不是那种「颠覆性」的大升级,而是一系列「润物细无声」的小改进。

但正是这些小改进,让模型在实际使用中的体验好了很多。

如果你已经在用 Claude 做 AI 辅助编程,建议直接切到 Opus 4.7。如果你的使用场景主要是简单任务(比如写个脚本、生成文档),那 Sonnet 系列性价比更高,没必要上 Opus。

不过我个人最期待的还是「自验证」能力的进一步发展。如果模型能真正做到「知道自己什么时候不确定」,那 AI 辅助决策的可靠性会上一个台阶。

毕竟,一个「知道自己不知道什么」的模型,比一个「什么都敢说」的模型,要靠谱得多。