Claude Opus 4.7 深夜突袭:编程能力这波是「真提升」还是「PPT造车」?

4月16号晚上11点,我正准备关电脑睡觉,突然看到Anthropic发了条推文:Claude Opus 4.7上线。

说实话,第一反应是:又来?这年头大模型更新比手机还勤快,OpenAI上周刚发了GPT-6,这周就是Claude Opus 4.7——我是不是该习惯这种「半夜突袭」的节奏了?

但看到「编程能力大幅跃升」几个字,我还是没忍住,打开终端测试了一把。

测完之后,我只能说:这次是真的有点东西。

SWE-bench从60%飙到80%,什么概念?

先说最关键的数字:SWE-bench得分从Opus 4.6的60.2%跳到了80.8%。

什么概念?SWE-bench是测试AI修复真实代码bug能力的benchmark,80%意味着——给Claude一个真实的GitHub issue,它有80%的概率能自己搞定。

作为对比:GPT-5.4是72%,GPT-6号称85%(但我还没测到)。也就是说,Claude这次直接干到了和GPT-6一个梯队。

我个人的感受是:这个提升不是「微调」级别的,是「质变」。以前用Claude写代码,遇到复杂逻辑还是得自己上手;现在很多中等复杂度的bug,它确实能自己trace、自己修、自己验证。

三个实测场景:有惊喜,也有坑

场景1:重构遗留代码(惊喜)

我找了个自己两年前写的Python脚本,大概300行,各种if-else嵌套,可读性极差。给Claude Opus 4.7的指令很简单:「重构这段代码,提升可读性和性能。」

结果是:它不只重构了,还顺带发现了两个逻辑bug(确实是我当年写错的),然后给出了单元测试建议。整个过程大概5分钟。

说实话,这事儿要是放到两年前,我得花一下午。

场景2:多文件协同修改(惊喜+坑)

我让Claude帮我改一个前端项目的状态管理逻辑,涉及5个文件。

好的方面:它能准确理解「改动一个文件会影响哪些其他文件」,然后给出跨文件的修改方案。这事儿GPT-5.4经常搞不定,要么漏改,要么改错。

坑的方面:它给的代码片段有时候会缺少import语句,得自己补。虽然不是大问题,但确实说明「完整度」还有提升空间。

场景3:阅读超长代码库(坑)

我有个10万行左右的项目,想让它帮忙梳理架构。结果它虽然能读,但输出的分析比较泛泛——「这个模块负责X,那个模块负责Y」——缺乏深入洞察。

这让我意识到:Claude Opus 4.7在「写代码」上很强,但在「理解复杂系统」上,还是需要人类的架构师视角。

定价没涨,这波是良心还是策略?

一个有意思的点:Claude Opus 4.7的定价和4.6一样——$15/百万token输入,$75/百万token输出。

这在「模型迭代通常伴随着涨价」的大环境下,算是一股清流了。但我总觉得这事儿没那么简单。

一种可能性:Anthropic在抢市场份额。GPT-6刚发,定价涨了20%;Claude这时候保持原价,明显是在吸引那些「想用高端模型但不想多花钱」的用户。

另一种可能性:成本下来了。Anthropic最近在推理加速上做了不少优化,可能发现「降价也能赚钱」。

不管哪种,对咱们开发者都是好事。

林锐的判断:这次不是PPT

总结一下我的判断:Claude Opus 4.7的编程能力提升是真实的,不是PPT造车。

证据有三:

  1. SWE-bench不是轻易能刷的benchmark,80%的分数意味着它真的能解决大量真实世界的bug。

  2. 实测体验有质的提升,不是我一个人这么觉得,我问了几个也在用Claude的朋友,反馈都类似。

  3. 定价没变,说明Anthropic对这次升级有底气,不需要靠「涨价」来制造高端感。

但也要清醒地看到:Claude Opus 4.7依然有短板——理解复杂系统、处理超长上下文时的稳定性、多轮对话的上下文管理——这些都需要持续迭代。

别被「编程能力飙升」忽悠瘸了

最后提醒一句:AI编程能力提升了,不等于「程序员要被淘汰了」。

我看到的现实是:会写代码的人,用Claude能事半功倍;不会写代码的人,用Claude依然写不出靠谱的东西。

因为AI能帮你写代码,但不能帮你做架构决策、理解业务需求、权衡技术方案——这些依然是人类的活。

Claude Opus 4.7很强,但它是个工具。别把它当成神。

说到这儿,我突然想起去年Claude 3发布时,有个哥们跟我说「有了Claude,还要什么程序员」。一年过去了,我还在写代码,他转行卖保险了。

工具再强,也得会用工具的人。这个道理,Claude再迭代几版也不会变。