ray Qwen3.6 — 06 Apr 2026

千问3.6-Plus编程能力杀入全球第二，国产模型终于卷到正确的赛道了

上周三我在调一个 RAG pipeline 的 bug，顺手把同一段代码丢给了三个模型——Claude Opus 4.5、GPT-5.4、还有刚上线的千问 3.6-Plus。

结果让我愣了一下。

千问给出的修复方案，不仅定位准确，还顺手重构了一段我自己都觉得写得烂的异步逻辑。说实话，第一反应是"这不太像国产模型的水平"。

4月2日，阿里正式发布 Qwen 3.6-Plus。这不是又一个"参数更大、跑分更高"的常规升级——它在 Code Arena 全球编程盲测中拿了第二名。第二名什么概念？排在它前面的只有 Claude 系列，OpenAI 和 Google 的模型都被甩在身后了。

这个排名是盲测出来的，不是自己跑自己的 benchmark。Code Arena 的机制类似 Chatbot Arena，真实开发者提交编程任务，模型匿名生成代码，人类评审投票。你想刷分？对不起，你连对手是谁都不知道。

具体聊聊 3.6 到底强在哪。

编程不是写 Hello World，是工程化能力。 Qwen 3.6 在 SWE-bench 系列、Terminal-Bench 2.0、NL2Repo 这些"仓库级"评测上表现都很强。什么是仓库级？就是不是让你写一个函数，而是给你一个几万行的项目，告诉你"第 347 号 issue 怎么修"，模型得自己找文件、理解上下文、改代码、跑测试。

这才是 AI 编程真正有用的场景。你让模型帮你写个排序算法，那是面试题，不是生产力。

还有一个点挺有意思——视觉智能体编程。设计师扔一张界面截图过去，3.6 能直接生成前端代码。这个能力 Claude 也有，但千问号称在中文界面的理解上更准。我还没实测过，不敢下结论，但如果是真的，对国内前端开发者来说确实是个刚需。

嗯...但我得泼点冷水。

评测强不等于好用。我用 Claude Code 写了大半年代码了，它的优势不只是"代码写得对"，而是整个交互体验——上下文理解、多轮对话的连贯性、出错时的自我纠正。这些东西跑分看不出来。

千问 3.6 的 API 定价是每百万 token 输入 2 块钱。Claude Opus 4.5 多少？大概是它的二三十倍。价格差距摆在这儿，如果能力真的接近八九成，那对预算敏感的团队来说，性价比优势是碾压级的。

另一个值得关注的信号：阿里这次明确说了，3.6-Plus 只是开胃菜，旗舰版 Qwen 3.6-Max 近期就发。也就是说现在全球第二的这个，还不是他们的满血版本。

我个人的感受是，国产大模型终于开始卷到正确的方向了。以前卷参数规模、卷 token 价格、卷中文跑分——说白了都是在"内卷"。现在在全球盲测中和 Claude 正面硬刚，这才是真正有意义的竞争。

当然了，一次跑分不能说明一切。真正的考验是：三个月后，有多少开发者会把日常编程工具从 Claude Code 或 Copilot 切到千问？

这个问题的答案，比任何 benchmark 都诚实。

千问3.6-Plus编程能力杀入全球第二，国产模型终于卷到正确的赛道了

OpenAI Codex CLI正式发布：终端里的AI编程助手，这次有什么不同？

OpenAI 砍掉 Sora 了——AI视频生成这条路，走不通？