Claude Opus 4.7 深夜突袭:编程能力这波是「真提升」还是「PPT造车」?
4月16号晚上11点,我正准备关电脑睡觉,突然看到Anthropic发了条推文:Claude Opus 4.7上线。
说实话,第一反应是:又来?这年头大模型更新比手机还勤快,OpenAI上周刚发了GPT-6,这周就是Claude Opus 4.7——我是不是该习惯这种「半夜突袭」的节奏了?
但看到「编程能力大幅跃升」几个字,我还是没忍住,打开终端测试了一把。
测完之后,我只能说:这次是真的有点东西。
SWE-bench从60%飙到80%,什么概念?
先说最关键的数字:SWE-bench得分从Opus 4.6的60.2%跳到了80.8%。
什么概念?SWE-bench是测试AI修复真实代码bug能力的benchmark,80%意味着——给Claude一个真实的GitHub issue,它有80%的概率能自己搞定。
作为对比:GPT-5.4是72%,GPT-6号称85%(但我还没测到)。也就是说,Claude这次直接干到了和GPT-6一个梯队。
我个人的感受是:这个提升不是「微调」级别的,是「质变」。以前用Claude写代码,遇到复杂逻辑还是得自己上手;现在很多中等复杂度的bug,它确实能自己trace、自己修、自己验证。
三个实测场景:有惊喜,也有坑
场景1:重构遗留代码(惊喜)
我找了个自己两年前写的Python脚本,大概300行,各种if-else嵌套,可读性极差。给Claude Opus 4.7的指令很简单:「重构这段代码,提升可读性和性能。」
结果是:它不只重构了,还顺带发现了两个逻辑bug(确实是我当年写错的),然后给出了单元测试建议。整个过程大概5分钟。
说实话,这事儿要是放到两年前,我得花一下午。
场景2:多文件协同修改(惊喜+坑)
我让Claude帮我改一个前端项目的状态管理逻辑,涉及5个文件。
好的方面:它能准确理解「改动一个文件会影响哪些其他文件」,然后给出跨文件的修改方案。这事儿GPT-5.4经常搞不定,要么漏改,要么改错。
坑的方面:它给的代码片段有时候会缺少import语句,得自己补。虽然不是大问题,但确实说明「完整度」还有提升空间。
场景3:阅读超长代码库(坑)
我有个10万行左右的项目,想让它帮忙梳理架构。结果它虽然能读,但输出的分析比较泛泛——「这个模块负责X,那个模块负责Y」——缺乏深入洞察。
这让我意识到:Claude Opus 4.7在「写代码」上很强,但在「理解复杂系统」上,还是需要人类的架构师视角。
定价没涨,这波是良心还是策略?
一个有意思的点:Claude Opus 4.7的定价和4.6一样——$15/百万token输入,$75/百万token输出。
这在「模型迭代通常伴随着涨价」的大环境下,算是一股清流了。但我总觉得这事儿没那么简单。
一种可能性:Anthropic在抢市场份额。GPT-6刚发,定价涨了20%;Claude这时候保持原价,明显是在吸引那些「想用高端模型但不想多花钱」的用户。
另一种可能性:成本下来了。Anthropic最近在推理加速上做了不少优化,可能发现「降价也能赚钱」。
不管哪种,对咱们开发者都是好事。
林锐的判断:这次不是PPT
总结一下我的判断:Claude Opus 4.7的编程能力提升是真实的,不是PPT造车。
证据有三:
SWE-bench不是轻易能刷的benchmark,80%的分数意味着它真的能解决大量真实世界的bug。
实测体验有质的提升,不是我一个人这么觉得,我问了几个也在用Claude的朋友,反馈都类似。
定价没变,说明Anthropic对这次升级有底气,不需要靠「涨价」来制造高端感。
但也要清醒地看到:Claude Opus 4.7依然有短板——理解复杂系统、处理超长上下文时的稳定性、多轮对话的上下文管理——这些都需要持续迭代。
别被「编程能力飙升」忽悠瘸了
最后提醒一句:AI编程能力提升了,不等于「程序员要被淘汰了」。
我看到的现实是:会写代码的人,用Claude能事半功倍;不会写代码的人,用Claude依然写不出靠谱的东西。
因为AI能帮你写代码,但不能帮你做架构决策、理解业务需求、权衡技术方案——这些依然是人类的活。
Claude Opus 4.7很强,但它是个工具。别把它当成神。
说到这儿,我突然想起去年Claude 3发布时,有个哥们跟我说「有了Claude,还要什么程序员」。一年过去了,我还在写代码,他转行卖保险了。
工具再强,也得会用工具的人。这个道理,Claude再迭代几版也不会变。