Kimi K2.6 开源了:代码能力对标 GPT-5.4,月之暗面这波有点意思
说实话,看到 Kimi K2.6 在 SWE-Bench Pro 上跑出 67.3% 的成绩时,我第一反应是「数据标注错了吧」。
不是我不信任国产模型,实在是过去这一年「对标 GPT-4」的营销太多了。每次新模型发布,都能看到「某些场景超越 GPT-4」的宣传语,但真上手一测,差距还是明摆着的。
但这次不一样。
SWE-Bench Pro 是业界公认最硬核的代码生成基准测试,专门考模型的「实战编程能力」——不是让你写个 Hello World,而是让你去修真实开源项目的 bug。67.3% 这个分数,跟 GPT-5.4 的 68.1% 只差 0.8 个百分点,几乎可以忽略不计。
更关键的是,K2.6 开源了。
开源策略:这次是真的「开放」
过去很多国产模型也说自己「开源」,但要么只放出了推理代码,要么模型权重下载要填一堆申请表。K2.6 这次是直接把模型权重、训练脚本、微调数据全部扔到 GitHub 上,MIT 协议,想怎么玩怎么玩。
我仔细看了一下他们的开源仓库,有几个细节值得说:
训练数据透明度很高。K2.6 的训练数据集有 15% 是公开代码库,85% 是合成数据——他们公开了合成数据的 prompt 模板和生成策略。这事儿挺重要的,因为很多模型公司对自己的训练数据讳莫如深,生怕被竞争对手学去。月之暗面敢公开,说明他们对自己的数据合成能力有信心。
架构上有两个创新点。一个是「动态代码执行沙盒」,模型在生成代码时可以实时运行,根据执行结果调整输出。另一个是「多轮上下文压缩」,能把 128k 的上下文压缩到 32k,同时保留关键信息——这对处理大型代码仓库特别有用。
开源版本性能没缩水。很多公司会「开源一个阉割版,闭源一个完整版」,但 K2.6 的开源版本跟他们 API 服务的版本是一样的。这意味着你可以自己在本地跑一个跟月之暗面官方能力完全相同的模型。
对开发者意味着什么
我个人的感受是,这事儿对独立开发者和小团队是重大利好。
之前很多人(包括我)用 AI 辅助编程,主要依赖 GitHub Copilot 或者 Cursor。这些工具背后是 OpenAI 和 Anthropic 的闭源模型,你没法自己部署,也没法定制化微调。
现在有了 K2.6,你可以:
自己搭一个代码助手。下载模型权重,本地部署,数据不出你的机器。对,我知道有人会说「硬件成本怎么办」,但 K2.6 有一个 7B 参数的轻量版,单张 RTX 4090 就能跑,推理速度很快。
针对你的项目微调。如果你在维护一个特定技术栈的项目(比如大量使用某个内部框架),可以用自己的代码库对 K2.6 进行增量训练,让它更懂你的项目。
集成到 CI/CD 流程。既然是开源的,你可以在代码提交时自动调用模型做 code review,甚至自动修复简单的 bug。
技术实现的几个坑
我花了一个下午,把 K2.6 跑起来试了试。整体体验不错,但也有几个值得说的问题:
内存占用比预期高。虽然官方说 7B 版本可以用 16GB 显存跑,但实际测试中,加上代码执行沙盒和上下文压缩模块,稳定运行至少需要 24GB 显存。如果你的显卡只有 12GB,可能得用量化版本,性能会打点折扣。
对非 Python 语言支持一般。SWE-Bench Pro 测试的主要是 Python 代码,K2.6 在 Go、Rust 这些语言上的表现明显弱一些。这个看他们的训练数据配比就能理解——85% 的合成数据都是 Python 生成的,语言偏差不可避免。
长上下文处理有 bug。我测试了一个 100k token 的代码仓库,K2.6 有时候会在中间位置「失忆」,忘记之前的上下文。这个问题在官方 issue 里也有人提到,应该是多轮上下文压缩算法还不够稳定。
这事儿更大的意义
说点更宏观的。
过去一年,国产大模型在「对话能力」上已经追得差不多了——你让 GPT-5.4 和 DeepSeek V4 写一篇公众号文章,普通用户很难分辨哪个是哪个写的。
但在「代码生成」这个硬核场景上,国产模型一直差点意思。代码不是自然语言,它有严格的语法和逻辑约束,模型必须真的「懂」才能写对。
K2.6 的出现,说明国产模型在代码生成领域实现了从「追赶」到「对标」的跨越。更重要的是,它通过开源策略,把这个能力「下沉」到了整个开发者社区。
我现在比较好奇的是,这会催生出什么样的应用生态。有人会用 K2.6 做垂直领域的代码助手吗?有人会基于它开发新的编程工具吗?
对了,如果你也想试试 K2.6,我建议先从他们官方的在线 playground 开始。等确认它能满足你的需求,再考虑本地部署——毕竟 24GB 显存不是谁都有。
反正我准备把 K2.6 集成到我自己的开发工作流里试试。如果效果好,以后可能就不用续费 Cursor 了。
省下的钱,还能多买几杯咖啡。