阿里Qwen3.6-Max-Preview实测:国产大模型的「课代表」交卷了

昨天阿里突然放了Qwen3.6-Max-Preview,我第一时间申请了内测资格。

说实话,我对阿里的模型一直持保留态度。不是因为技术不行,而是他们的营销话术太满——每次发布都是「最强」「第一」「超越」,结果用起来总差那么一口气。

但这次测完,我得承认:有点东西。

先说最直观的中文理解能力。我扔了几个「地狱级」的测试case进去——成语接龙、古诗词续写、网络流行语解释。Qwen3.6的表现比GPT-5.4稳,尤其是那种「只可意会不可言传」的中文表达,它 grasp 得更准。

举个例子。我让它解释「绝绝子」在不同语境下的含义,它不仅给出了字面意思,还分析了情感色彩的变化——从早期的纯褒义,到后来的褒贬混用,再到现在的略带调侃。这种语义演变的把握,GPT-5.4就做不到这么细。

代码能力也有惊喜。我用它重构了一个Python项目,原来的 spaghetti code 被梳理得相当清晰。更意外的是,它主动指出了几个潜在的并发问题,还给了具体的修复方案。这不是简单的「代码格式化」,是真的在理解业务逻辑。

但短板也很明显。

首先是多模态能力。说是支持图文理解,但实际用起来,图像描述的准确性一般,有时候会出现「幻觉」——看到一只猫说是狗,虽然颜色对了,但物种错了。

其次是推理深度。面对需要多步推导的数学问题,Qwen3.6容易在中途「跑偏」。我试了一道高中几何题,前几步都对了,最后一步突然用了错误的定理。这种「临门一脚失误」在Claude身上很少见。

还有一个让我哭笑不得的点——它的「谦虚」设置得太过了。每次回答完都要加一句「以上信息仅供参考,请以实际情况为准」。我知道这是为了安全,但频率太高反而影响体验,像是在跟个过度谨慎的客服聊天。

从斯坦福AI指数报告来看,阿里在AI贡献度上排全球第三、中国第一,这背后是有真功夫的。Qwen3.6-Max至少证明了,国产模型在特定场景下已经可以和国际一线掰手腕了。

但我还是要泼点冷水:模型好不等于产品好。阿里在C端产品上的执行力一直是个谜——技术领先,体验拉胯的例子太多了。Qwen3.6能不能真正惠及普通用户,还要看后续的产品化能力。

最后说个细节。我在测试的时候,发现它的响应速度比上一代快了不少,尤其是长文本场景。这种「工程优化」往往比模型能力本身更能决定用户体验。阿里在这点上,看来是下了功夫的。

你会在日常工作里用通义千问吗?还是继续用ChatGPT/Claude?