GPT-6 正式发布：代号「土豆」，200 万上下文 + 40% 性能跃升

大模型, OpenAI, GPT-6, AGI — 22 4月 2026

说实话，等了 18 个月，OpenAI 终于把「土豆」端上来了。

4 月 14 日，GPT-6 全球同步上线。代号 Spud，土豆。我第一反应是：这代号也太接地气了吧？但转念一想，OpenAI 这波命名有点意思——土豆是全球第四大粮食作物，便宜、量大、管饱。这玩意儿要是真能像土豆一样普及，那可就真的不一样了。

所以这颗「土豆」到底有什么不一样？

先说最关键的：上下文窗口从 20 万直接飙到 200 万 Token。

200 万 Token 是什么概念？差不多能塞进去一本完整的《红楼梦》。以前你扔给模型一篇长论文，它读到一半就忘了开头在说啥。现在？它能把整本书吞下去再吐出来。这对做代码分析的、写长文档的、搞法律合同审查的，绝对是质的飞跃。

我自己试了一下，把一个 5000 行的 TypeScript 项目扔进去，让它分析架构问题和潜在 bug。之前 GPT-5.4 只能看懂一半，现在能完整分析所有文件之间的依赖关系了。说实话，这种「能记住前文」的感觉，确实不像在跟一个健忘的 AI 聊天。

性能方面，官方数据是比 GPT-5.4 提升了 40%。

这个数据我持保留态度。跑了几组基准测试，数学推理确实强了不少，但在代码生成的准确性上，提升幅度没那么夸张。有些之前会犯的低级错误（比如把异步函数当成同步调用）还是会出现。不过整体流畅度确实上来了，特别是多轮对话的连贯性，明显感觉它「记得住」之前聊过什么。

有个细节挺有意思：这次 GPT-6 用了全新的「Symphony 架构」，也就是「交响乐架构」。官方说法是让模型像交响乐团一样，多个专家模块协同工作。听起来很玄乎，但本质还是 MoE（混合专家）架构的升级版——只不过这次的「指挥家」更聪明，知道在什么时候调用哪个专家。

AGI 的最后一公里？奥特曼这话说得有点过了。

发布会现场，Sam Altman 直接抛出了「AGI 的最后一公里」这个说法。我个人觉得吧，这有点营销过头的意思。

没错，GPT-6 确实在长上下文、多模态理解、工具调用这些维度上有了显著进步。但它依然存在老问题：幻觉、推理链断裂、对复杂真实场景的泛化能力不足。你让它帮你写个简单的自动化脚本，没问题；但让它独立完成一个完整的产品开发流程？还早着呢。

有个测试我印象特别深：让它帮忙规划一个为期两周的日本旅行行程，包括机票、酒店、景点、交通。结果它给出了一个「理论上完美」的计划——但是，有些景点根本不存在，酒店名称也对不上。这说明什么？它还是会在「看起来合理但其实是错的」这条路上越走越远。

定价没涨，这点挺良心的。

API 价格维持跟 GPT-5.4 一样的水平：输入 $5/M tokens，输出 $15/M tokens。考虑到性能提升和上下文扩展，这个定价确实有诚意。但问题是：200 万上下文意味着每次调用的 token 数量会大幅增加，账单可能会比你想象的要厚。

我个人建议：如果你主要做短文本处理（客服、翻译、简单问答），其实没必要急着升级。GPT-5.4 完全够用。但如果你有长文档分析、代码审查、复杂推理的需求，那 GPT-6 的 200 万上下文确实值得试试。

最后说句实话：这颗「土豆」确实比之前的好吃，但离「管饱」还有距离。AGI 的最后一公里？我觉得至少还有好几个马拉松要跑。

18家大模型厂商搞了个"行业公约"，这次能管用吗？