千问3.6-Plus编程能力杀入全球第二,国产模型终于卷到正确的赛道了

上周三我在调一个 RAG pipeline 的 bug,顺手把同一段代码丢给了三个模型——Claude Opus 4.5、GPT-5.4、还有刚上线的千问 3.6-Plus。


结果让我愣了一下。


千问给出的修复方案,不仅定位准确,还顺手重构了一段我自己都觉得写得烂的异步逻辑。说实话,第一反应是"这不太像国产模型的水平"。


4月2日,阿里正式发布 Qwen 3.6-Plus。这不是又一个"参数更大、跑分更高"的常规升级——它在 Code Arena 全球编程盲测中拿了第二名。第二名什么概念?排在它前面的只有 Claude 系列,OpenAI 和 Google 的模型都被甩在身后了。


这个排名是盲测出来的,不是自己跑自己的 benchmark。Code Arena 的机制类似 Chatbot Arena,真实开发者提交编程任务,模型匿名生成代码,人类评审投票。你想刷分?对不起,你连对手是谁都不知道。


具体聊聊 3.6 到底强在哪。


编程不是写 Hello World,是工程化能力。 Qwen 3.6 在 SWE-bench 系列、Terminal-Bench 2.0、NL2Repo 这些"仓库级"评测上表现都很强。什么是仓库级?就是不是让你写一个函数,而是给你一个几万行的项目,告诉你"第 347 号 issue 怎么修",模型得自己找文件、理解上下文、改代码、跑测试。


这才是 AI 编程真正有用的场景。你让模型帮你写个排序算法,那是面试题,不是生产力。


还有一个点挺有意思——视觉智能体编程。设计师扔一张界面截图过去,3.6 能直接生成前端代码。这个能力 Claude 也有,但千问号称在中文界面的理解上更准。我还没实测过,不敢下结论,但如果是真的,对国内前端开发者来说确实是个刚需。


嗯...但我得泼点冷水。


评测强不等于好用。我用 Claude Code 写了大半年代码了,它的优势不只是"代码写得对",而是整个交互体验——上下文理解、多轮对话的连贯性、出错时的自我纠正。这些东西跑分看不出来。


千问 3.6 的 API 定价是每百万 token 输入 2 块钱。Claude Opus 4.5 多少?大概是它的二三十倍。价格差距摆在这儿,如果能力真的接近八九成,那对预算敏感的团队来说,性价比优势是碾压级的。


另一个值得关注的信号:阿里这次明确说了,3.6-Plus 只是开胃菜,旗舰版 Qwen 3.6-Max 近期就发。也就是说现在全球第二的这个,还不是他们的满血版本。


我个人的感受是,国产大模型终于开始卷到正确的方向了。以前卷参数规模、卷 token 价格、卷中文跑分——说白了都是在"内卷"。现在在全球盲测中和 Claude 正面硬刚,这才是真正有意义的竞争。


当然了,一次跑分不能说明一切。真正的考验是:三个月后,有多少开发者会把日常编程工具从 Claude Code 或 Copilot 切到千问?


这个问题的答案,比任何 benchmark 都诚实。