Claude Opus 4.7实测:编码能力确实暴涨,但有个细节没人说

昨天Anthropic扔了个更新——Claude Opus 4.7。官方说编码能力暴涨,还加了xhigh档位。作为一个靠写代码吃饭的人,我第一时间就上手试了。

先说结论:确实强了,但强的方向和我想象的不太一样。

我测试了几个场景:

第一个是复杂项目的重构。我丢给它一个我自己写的Python项目,大概5000行左右,让它帮忙优化架构。Opus 4.7给出的方案——说实话,比4.6版本要「大胆」很多。它不再只是_safe refactor_,而是会主动建议一些结构性的改动,比如把某些类拆成更细粒度的模块,或者建议用更现代的Python特性重写某些逻辑。

这让我有点惊讶。以前用Claude写代码,感觉它更像一个「谨慎的助手」,现在有点像「有主见的技术负责人」了。

第二个测试是多文件协作。我让它在10个相互依赖的文件里加一个新功能。结果——它竟然记住了所有文件的上下文,没有在import和接口定义上犯错。这一点比GPT-5.4的某些版本还稳。

但有个细节,好像没人提。

Opus 4.7在高难度任务上的「自信度」明显提升了,但代价是——它偶尔会给出看起来很有道理、实际上有坑的方案。我用xhigh档位测试了一个涉及并发处理的场景,它给的代码逻辑是对的,但少考虑了一个边缘情况。

这挺有意思的。模型能力提升之后,它的「犯错方式」也升级了——不再是明显的语法错误或逻辑混乱,而是那种「看起来对、实际有问题」的坑。

这让我想起之前跟朋友讨论的一个话题:AI编程工具的可靠性边界到底在哪?

我的感受是,Opus 4.7已经超越了「辅助工具」的范畴,开始向「结对编程伙伴」演进。但这也意味着,使用者需要具备更强的判断力——要能分辨它给出的建议,哪些是真金白银,哪些是看起来闪亮的石头。

官方还提到3倍高清视觉能力。我试了一下让它看一张复杂的架构图然后写对应的配置代码——确实能识别更多的细节了,但离「看图写代码」的理想状态还有距离。

最后说个实际的使用建议。

如果你是做复杂项目的开发,Opus 4.7值得订阅。它的xhigh档位在处理大型代码库时确实有用。但记住——不要盲目相信它的输出,尤其是那些涉及性能优化或并发处理的建议,一定要自己review一遍。

AI编程工具越强,程序员的判断力就越值钱。这话听起来有点讽刺,但确实是现状。