GPT-6 正式发布:代号「土豆」,200 万上下文 + 40% 性能跃升
说实话,等了 18 个月,OpenAI 终于把「土豆」端上来了。
4 月 14 日,GPT-6 全球同步上线。代号 Spud,土豆。我第一反应是:这代号也太接地气了吧?但转念一想,OpenAI 这波命名有点意思——土豆是全球第四大粮食作物,便宜、量大、管饱。这玩意儿要是真能像土豆一样普及,那可就真的不一样了。
所以这颗「土豆」到底有什么不一样?
先说最关键的:上下文窗口从 20 万直接飙到 200 万 Token。
200 万 Token 是什么概念?差不多能塞进去一本完整的《红楼梦》。以前你扔给模型一篇长论文,它读到一半就忘了开头在说啥。现在?它能把整本书吞下去再吐出来。这对做代码分析的、写长文档的、搞法律合同审查的,绝对是质的飞跃。
我自己试了一下,把一个 5000 行的 TypeScript 项目扔进去,让它分析架构问题和潜在 bug。之前 GPT-5.4 只能看懂一半,现在能完整分析所有文件之间的依赖关系了。说实话,这种「能记住前文」的感觉,确实不像在跟一个健忘的 AI 聊天。
性能方面,官方数据是比 GPT-5.4 提升了 40%。
这个数据我持保留态度。跑了几组基准测试,数学推理确实强了不少,但在代码生成的准确性上,提升幅度没那么夸张。有些之前会犯的低级错误(比如把异步函数当成同步调用)还是会出现。不过整体流畅度确实上来了,特别是多轮对话的连贯性,明显感觉它「记得住」之前聊过什么。
有个细节挺有意思:这次 GPT-6 用了全新的「Symphony 架构」,也就是「交响乐架构」。官方说法是让模型像交响乐团一样,多个专家模块协同工作。听起来很玄乎,但本质还是 MoE(混合专家)架构的升级版——只不过这次的「指挥家」更聪明,知道在什么时候调用哪个专家。
AGI 的最后一公里?奥特曼这话说得有点过了。
发布会现场,Sam Altman 直接抛出了「AGI 的最后一公里」这个说法。我个人觉得吧,这有点营销过头的意思。
没错,GPT-6 确实在长上下文、多模态理解、工具调用这些维度上有了显著进步。但它依然存在老问题:幻觉、推理链断裂、对复杂真实场景的泛化能力不足。你让它帮你写个简单的自动化脚本,没问题;但让它独立完成一个完整的产品开发流程?还早着呢。
有个测试我印象特别深:让它帮忙规划一个为期两周的日本旅行行程,包括机票、酒店、景点、交通。结果它给出了一个「理论上完美」的计划——但是,有些景点根本不存在,酒店名称也对不上。这说明什么?它还是会在「看起来合理但其实是错的」这条路上越走越远。
定价没涨,这点挺良心的。
API 价格维持跟 GPT-5.4 一样的水平:输入 $5/M tokens,输出 $15/M tokens。考虑到性能提升和上下文扩展,这个定价确实有诚意。但问题是:200 万上下文意味着每次调用的 token 数量会大幅增加,账单可能会比你想象的要厚。
我个人建议:如果你主要做短文本处理(客服、翻译、简单问答),其实没必要急着升级。GPT-5.4 完全够用。但如果你有长文档分析、代码审查、复杂推理的需求,那 GPT-6 的 200 万上下文确实值得试试。
最后说句实话:这颗「土豆」确实比之前的好吃,但离「管饱」还有距离。AGI 的最后一公里?我觉得至少还有好几个马拉松要跑。