GPT-6「土豆」正式发布:推理性能提升40%,但有个坑你得注意
OpenAI终于不吊胃口了。
昨天凌晨,GPT-6正式发布,内部代号「Spud」(土豆)。没错,就是那个其貌不扬但管饱的土豆。Sam Altman在X上发了个🥔表情,评论区瞬间炸锅。
我第一时间拿到了API权限,测了一整天。先给结论:推理能力确实强了,但有个坑你得注意。
纸面数据:推理性能提升40%
OpenAI官方的benchmark显示,GPT-6在数学推理(MATH)、代码生成(HumanEval)、逻辑推理(LogiQA)三个维度上,相比GPT-5.4平均提升40%。这个幅度说实话挺惊人的。
我跑了几个自己常用的测试用例。一个复杂的React组件重构任务,GPT-5.4需要三轮对话才能搞定,GPT-6一轮就写出了能跑的代码,而且注释写得比我手下实习生还清楚。
另一个感受是上下文理解能力明显变强了。我把一个5000行的Python项目代码全贴进去,让它找潜在的内存泄漏点。它不仅找出来了,还告诉我哪几行是根本原因,哪几行是症状。这种「透过现象看本质」的能力,之前的模型确实做不到。
但是——对,我要说但是了。
GPT-6有个挺明显的问题:过度思考(overthinking)。
我让它写一个简单的HTTP请求脚本,就是那种10行代码就能搞定的事。结果它给我返回了整整200多行,包含了重试机制、错误处理、日志记录、配置管理…功能确实齐全,但完全超出我的需求。
这就好比你跟服务员说「来杯水」,他给你端来了一个带柠檬片、薄荷叶、冰球的精致饮品。是好东西,但没必要。
我查了一下技术文档,发现GPT-6默认启用了「深度推理模式」,模型会倾向于给出「最完整」的方案,而不是「最简洁」的方案。对于复杂任务这是好事,但对于简单任务,反而增加了用户的筛选成本。
另一个观察:价格涨了,但性价比更高了
GPT-6的API定价比GPT-5.4贵了约25%。但按照单位任务的成本来算,实际上更便宜了——因为需要的交互轮次少了,token总量反而下降。
我拿一个典型的数据分析任务做了对比:
- GPT-5.4:3轮对话,共消耗8500 tokens,成本 $0.17
- GPT-6:1轮对话,共消耗3200 tokens,成本 $0.08
省了一半钱,还省了时间。这才是真正的「降本增效」。
跟竞品的对比
现在市场上能跟GPT-6掰手腕的,主要是Claude Opus 4.7和Gemini 3.1 Pro。我横向测了一下:
- 代码能力:GPT-6 ≈ Claude Opus 4.7 > Gemini 3.1 Pro
- 长文本:Gemini 3.1 Pro > GPT-6 > Claude Opus 4.7
- 多模态:三家各有千秋,看具体场景
总的来说,GPT-6的发布巩固了OpenAI在「通用大模型」领域的领先地位。但领先优势已经没有以前那么明显了。Claude在代码场景、Gemini在长文本场景,都有自己的护城河。
最后说一个猜测
代号「Spud」(土豆)挺有意思。土豆是一种「基础食材」,便宜、百搭、能做成各种菜。我怀疑OpenAI是在暗示:GPT-6将成为一个「基础模型」,上面会生长出各种各样的应用生态。
毕竟,再好吃的土豆,单吃也腻。但做成薯条、土豆泥、红烧土豆…那就是另一番景象了。
开发者们,开工吧。