Harness揭开真相:AI编程工具的真正分水岭,不是模型是工具链

有个事情我一直想说,但没找到合适的契机。今天看到Harness的CEO发了一篇文章,觉得机会来了。

这家公司的名字你可能不熟悉——Harness是一家做CI/CD平台的厂商,也就是软件开发工具链里的一环。但他们4月初发的这篇文章,在科技圈引发了不少讨论,标题叫《The Real Differentiator in AI Coding Tools Isn’t the Model》。翻译过来就是:AI编程工具的真正分水岭,不是模型本身。

我觉得这个判断,说到了点子上。

为什么模型已经不是瓶颈了

先说数据。文章里引用了一个调查,采访了全球超过1000名开发者,问他们一个问题:你觉得现在AI编程工具最大的限制是什么?

结果很有意思——只有23%的人选择了「模型能力不足」。而超过55%的人,选择了「工具链集成深度不够」。

这个数字说明什么?说明对于大多数开发者来说,现在的模型能力已经「够用」了,或者说,主要矛盾已经转移了。GPT-5.4来了,Opus 4.7来了,Gemini 3.1也来了,各家在基准测试上卷得不亦乐乎。但作为用户,你真的能感受到这些数字差异吗?

我的感受是:能,但没那么显著。更关键的是,当模型能力普遍提升之后,单纯比模型参数和基准测试分数,已经很难构成用户的切换理由了。

Harness的观点是:真正的差异在于工具链。

工具链为什么是关键

这里有个很具体的例子。文章里提到Harness自己在选型AI编程工具的时候,重点考察的维度是:

第一,能不能直接读取和修改你现有的代码库,而不是每次都要用户手动复制粘贴?

第二,能不能理解你的项目结构、依赖关系、CI/CD流程,并且能够在这个上下文里工作?

第三,输出结果能不能直接进入你的开发和部署流程,而不是需要大量人工中转?

第四出了问题能不能快速定位——是你的使用方式有问题,还是模型本身有Bug,还是工具链的某个环节有疏漏?

这四个维度,没有一个跟「模型有多强」直接相关,但每一个都直接影响开发体验和效率。

这让我想起来一个类比:汽油发动机的性能,120年前就在理论层面被研究透了,但为什么特斯拉现在还能在电动车市场掀起波澜?因为电池管理系统、热管理、能量回收——这些「工具链」层面的创新,让同样的电池能够发挥更大的效率。

AI编程工具也是一样的。模型是发动机,但工具链是整个传动系统、散热系统、控制系统。你发动机再强,传动效率不行,整车的性能还是上不去。

「烧Token换效率」模式的局限

还有一个有意思的观察。Harness在文章里提了一个观点:现在很多AI编程工具的商业模式,本质上是「烧Token换效率」——用户用得越多,API消耗越多,公司收入越高,但客户的实际效率提升,不一定跟Token消耗成正比。

这个模式的问题在于,它创造了错误的激励:工具厂商没有动力去优化「用更少Token完成同样任务」,反而有动力让用户用得更多。

真正可持续的商业模式,应该是「按效果付费」——帮用户解决了一个真实问题,才收钱;问题没解决,不收钱或者少收钱。Harness自己就是这么做的。他们的AI编程辅助工具,按「成功解决工单数量」计费,而不是按Token消耗。

这个信号值得关注。如果这个模式被更多厂商接受,意味着整个AI编程工具的竞争焦点,会从「模型能力」转向「问题解决能力」——而后者,恰恰是工具链深度决定的。

我的判断

AI编程工具的竞争,现在进入了一个新阶段。

第一阶段是「模型为王」——谁的模型强,谁就领先。这个阶段的竞争已经趋于白热化,但护城河正在变浅。

第二阶段是「工具链为王」——谁的工具链更贴合真实开发场景,谁就能留住用户。这个阶段的竞争,才刚刚开始。

对于开发者来说,这意味着:选工具的时候,不要只看模型参数,多花点时间想想这个工具在你实际工作流里能不能用起来。模型吹得再响,接不上你的IDE、分析不了你的代码库、出了Bug定位不了,那它就只是一个「更强的搜索引擎」,而不是一个真正的编程助手。