大模型排行榜2026年4月:GPT-6来了,Claude还能称王吗

4月14号那天,OpenAI发了GPT-6。

我朋友圈刷屏了一整天。有人说「终于等到你」,有人说「性能暴涨40%」,还有人说「AGI真的来了」。

说实话,我对这些营销话术已经免疫了。真正让我关心的是:GPT-6到底强不强?跟Claude、Gemini比怎么样?

所以我花了两周时间,把主流大模型都测了一遍。包括GPT-6、Claude Opus 4.7、Gemini 3.1 Pro、DeepSeek V4、Kimi K2.5、GLM-5等。

测试维度很简单:编程、推理、多模态。都是我日常实际会遇到的场景。

说说我的结论。

编程能力:Claude还是王者

编程测试我用了三个任务:写一个复杂的React组件、修复一个bug、重构一段遗留代码。

结果有点出乎意料:Claude Opus 4.7表现最好。

GPT-6代码质量也不错,但有个问题:它太「教条」。遇到一些需要权衡的决策,它总是给出「标准答案」,而不是「适合这个项目的答案」。

举个例子,我问它「这个API要不要加缓存」。它说「建议加缓存提升性能」。看起来没问题,但它没问我「你的QPS是多少」「你的数据更新频率是多少」。

Claude会先问这些背景信息,然后给出针对性建议。这就是差距。

DeepSeek V4的表现也让我惊喜。国产模型能做到这个水平,真的不容易。虽然跟Claude、GPT-6还有差距,但在中文场景下,它的表现甚至更好。

推理能力:GPT-6略胜一筹

推理测试我用了几道数学题、逻辑题,还有一个需要多步推理的实际问题。

GPT-6在这个维度确实强。复杂的多步推理,它能清晰地展示每一步的思考过程,而且准确率很高。

Claude紧随其后,差距不大。但Claude有个优点:它的推理过程更「人性化」,更容易理解。

Gemini 3.1 Pro的表现中规中矩。强项是知识面广,但深度推理不如GPT-6和Claude。

有个有趣的发现:Kimi K2.5在长文本推理上表现很好。给它一篇50页的技术文档,它能准确提取关键信息并做出推理。这在其他模型上经常「失忆」。

多模态:各有千秋

多模态测试包括图像理解、图像生成、视频理解。

Gemini 3.1 Pro在图像理解上最强。给它一张截图,它不仅能识别内容,还能理解背后的意图。

GPT-6在图像生成上表现最好。生成的图像更符合预期,细节处理也更到位。

Claude在多模态上相对较弱。Anthropic在这个方向上明显落后于Google和OpenAI。

价格:谁更划算

光看能力不够,还得看钱包。

GPT-6的价格最高,每百万Token要15美元。Claude Opus 4.7略低,12美元。

DeepSeek V4最便宜,只要3美元。性价比最高。

Gemini和GLM-5处于中间位置。

说实话,如果预算充足,选Claude或GPT-6不会错。但如果追求性价比,DeepSeek V4和GLM-5都是不错的选择,尤其是在中文场景。

我的排名

综合来看,我的排名是:

编程:Claude Opus 4.7 > GPT-6 > DeepSeek V4

推理:GPT-6 > Claude Opus 4.7 > Gemini 3.1 Pro

多模态:Gemini 3.1 Pro > GPT-6 > Claude Opus 4.7

性价比:DeepSeek V4 > GLM-5 > Kimi K2.5

但别把排名当圣经。不同场景下,最优选择会不一样。

我个人的使用习惯是:写代码用Claude,做推理用GPT-6,处理图像用Gemini。国产模型用来处理中文内容,效果确实更好。

最后说一句:大模型的技术迭代太快了。这个排名可能两个月后就得推翻重来。

所以别纠结谁第一谁第二。找到适合自己场景的工具,才是最重要的。