GPT-6正式发布:200万Token上下文+40%性能提升,「土豆」到底强在哪?

凌晨刷Twitter的时候,我差点以为自己在做梦。

OpenAI居然真的发布了GPT-6,代号还叫「Spud」——土豆。说实话,这个命名让我愣了一下,第一反应是:你们硅谷大厂起名字都这么随意的吗?

不过看完技术参数,我收回了刚才的吐槽。

200万Token的上下文窗口,这个数字是什么概念?以前处理一本300页的书都费劲,现在直接能把整套《哈利波特》丢进去,还能让它帮你写同人文。

更夸张的是性能提升——官方说比GPT-5强了40%。我在这个圈子里混了这么多年,知道这种幅度的提升意味着什么。不是那种修修补补的迭代,是架构层面的重构。

官方透露这次用了「原生多模态统一架构」,说白了就是把文本、图像、音频这些模态的底层打通,不再是以前那种「拼装货」。我上周正好在用GPT-5处理一个视频分析的项目,卡在多模态融合那一块死活调不通。现在看这发布时间,心里多少有点复杂。

但最让我关注的,是它的「长期任务执行能力」。

这个方向OpenAI布局很久了。之前的模型你让它干个复杂的活儿,超过几十轮对话就开始「失忆」,上下文一乱就胡言乱语。GPT-6这次号称能持续追踪多步骤任务的目标状态——听着挺玄乎,实际效果还得测。

我第一时间申请了API权限,目前还在排队。但看官方放出的demo,有个场景挺打动我的:让一个AI助手帮你策划一场婚礼,从预算规划到供应商对接,再到现场流程安排,全程不用重复交代背景信息。

说实话,这种「记住一切」的能力,才是真正的Agent该有的样子。

不过也有让我担忧的地方。

OpenAI为了训练这个模型,砸了天文数字的钱进去。Sam Altman前阵子还在X上暗示公司可能推迟IPO,因为「基础设施投入太大」。这让我想起当年云计算刚兴起的时候,AWS连续亏损了七年才扭亏为盈。

现在的问题是:GPT-6的定价会不会跟着水涨船高?

目前官方还没公布详细的API价格,但从行业惯例来看,200万Token的上下文,推理成本肯定是指数级增长的。独立开发者和小团队能不能用得起,这是个现实问题。

另一个值得关注的点是竞争格局。

就在GPT-6发布的前一周,Anthropic的Claude Mythos刚出来,Google的Gemini 2.5也在预热。三巨头几乎在同一时间窗口出牌,这不是巧合。

从技术路线来看,OpenAI走的是「大力出奇迹」——堆参数、堆算力、堆数据。Claude那边更强调安全对齐,Gemini则在多模态上发力。三个方向各有优劣,短期内很难分出胜负。

我个人的感受是,GPT-6这次更像是一次「基础设施升级」。它解决的不是某个具体场景的问题,而是把AI的能力天花板往上抬了一截。至于能造出什么新应用,取决于开发者的想象力。

说到这,我想起自己去年做的一个失败项目。当时想做一个能读完整本技术手册然后帮程序员 debug 的助手,结果卡在上下文长度上,最后不了了之。如果当时有GPT-6,结局会不会不一样?

这种「生不逢时」的感觉,大概是每个技术人的宿命。

最后说点实用的。对于想尝鲜的开发者,我的建议是先别急着把核心业务流程迁移过去。200万Token听着诱人,但实际使用中能发挥多少效能,还要看具体的prompt设计和任务拆解方式。

OpenAI这次还推出了新的fine-tuning接口,支持在超长上下文上做领域适配。这个对有特定需求的企业客户来说,可能比基础模型更有价值。

总之,GPT-6的发布把大模型竞赛推到了新阶段。参数战争还在继续,但至少现在,我们离那个「真正懂你的AI」又近了一步。

至于它能不能帮OpenAI赚回那些天文数字的投资?说实话,我不太关心。作为开发者,我只想知道:什么时候能拿到API key?