月之暗面开源Kimi K2.6:代码能力对标GPT-5.4,国产模型这次真的「硬」了

说实话,今天早上看到 Kimi K2.6 发布的消息,我第一反应是:又来了一个对标 GPT 的。

但仔细看完技术报告和实测数据后,我得承认,这次月之暗面是真的「硬」了。

先看数据:

Kimi K2.6 在 HumanEval 上拿了 89.2% 的分数,这个成绩基本和 GPT-5.4 打平。更关键的是,在 SWE-bench 这个更接近真实工程场景的测试里,K2.6 拿下了 62.4%,比 GPT-5.4 的 61.8% 还高了一丢丢。

别急,我知道你要说啥——「测试集又不代表真实水平」。这事儿挺有意思的,我专门去翻了一下技术报告里的细节。

这事儿有意思的地方在于:

月之暗面这次主打的是「长程任务执行」。啥意思呢?就是让模型连续写很多代码、改很多 bug、跑很多测试,而不是只写一个函数。

这个能力有多重要?举个栗子:

我之前用 GPT-5.4 做过一个实验,让它帮我重构一个 2000 行左右的 Python 项目。结果呢,写了 10 分钟就开始「跑偏」——改了这个文件,忘了那个文件;修复了这个 bug,引入了两个新 bug。

这就是目前大模型写代码的通病:单文件还行,一搞工程就「短路」。

Kimi K2.6 这次在技术报告里专门展示了一个案例:连续修改 14 个文件、执行 23 次测试、修复 8 个 bug,整个过程模型的「注意力」一直在线。

我个人的感受是,这事儿比单纯刷 HumanEval 分数重要多了。

开源,才是真正的杀手锏:

K2.6 不只是发布了 API,还直接开源了模型权重。这意味着啥?意味着你可以在自己的服务器上跑,不用担心 API 被限流,也不用担心代码泄露。

说实话,这才是国产模型该有的打法。你跟 OpenAI 比 API 调用,那是「以己之短攻彼之长」。但开源这事儿,OpenAI 现在基本不干了,正好给了国产模型一个「弯道超车」的机会。

当然,开源也有坑。比如:

  • 推理成本谁来扛?K2.6 是个 200B 参数的大模型,跑起来得几张 H100?
  • 社区维护咋整?开源不是扔个 GitHub 链接就完事,得有持续的更新和 issue 响应

不过,月之暗面这次倒是挺实在的,直接放出了部署脚本和推理优化方案。我自己看了一眼,在 8 张 A100 上能跑起来,推理速度大概是 GPT-5.4 API 的 70% 左右。

这波操作,我给 8 分:

扣掉的 2 分是因为:

  1. 官网 demo 访问有点慢(可能是刚发布流量太大)
  2. 技术报告里有些地方写得有点「营销风」,比如「颠覆性突破」这种词,属实没必要

但总体来说,Kimi K2.6 是国产大模型在代码领域的一次「真突破」。不是那种 PPT 上的突破,而是实打实的、可以上手验证的突破。

最后说句掏心窝子的话:

国产模型走到今天,真的不容易。从 2023 年的「追赶」,到 2024 年的「差距缩小」,再到 2026 年的「局部超越」,这个过程不是靠嘴上说说就能实现的。

Kimi K2.6 的意义在于,它证明了国产模型不只是「便宜」,而是真的「能打」。这才是我们该追的方向——不是跟 OpenAI 比谁更「聪明」,而是找到自己的差异化优势。

对了,Kimi K2.6 现在已经开放 API 了,你们可以去试试。反正我今天的计划是:把手里那个 Python 重构任务再跑一遍,看看能不能把 GPT-5.4 替下来。