GPT-6正式发布:OpenAI终于把「长期任务执行」这个硬骨头啃下来了
说实话,等GPT-6这事儿,我已经等得有点麻木了。从去年年底开始,各种 leak、rumor、内部消息满天飞,结果4月14日这天,OpenAI终于把它放出来了。
先说说最直观的感受:这不是那种「哇,参数又翻倍了」的发布,而是「终于有人把长任务执行这个老大难问题解决了」的踏实感。
GPT-6的核心卖点很明确——200万Token的上下文窗口,以及真正意义上对长期任务(long-horizon tasks)的支持。什么意思呢?以前的模型,你让它写个脚本,它能写;你让它写个需要前后协调、分步骤执行、中间还要根据反馈调整的大型项目,它就懵了。GPT-6这次主打的就是这个场景。
我个人最关心的其实是「200万Token」这个数。
之前Claude 4.6也能处理长文本,但实际用起来你会发现,模型「记得住」和「理解得了」是两回事。GPT-6这次的架构号称是原生多模态统一,文本、代码、图像在底层就是一套表示,不是后期拼接的。这种设计理论上会让长上下文的一致性更好——简单说,就是前面说的话,后面真能记得住,而不是靠猜。
当然,发布会上那些 demo 看看就好。真正让我感兴趣的是几个开发者的实测反馈。有个做金融数据分析的朋友说,他扔了一份200页的财报+过去5年的季报进去,让GPT-6做趋势分析,结果出来的报告居然能准确引用不同文档之间的数据关系——这事儿之前的模型基本做不到,或者说做对了也是蒙的。
但是,我得泼盆冷水。
性能提升40%这个数字听听就好,OpenAI自己的基准测试向来是「主场作战」。更关键的是成本问题。GPT-6的定价还没有正式公布,但按照OpenAI的惯例,新模型先给Pro用户,然后是企业级,最后才是普通Plus用户。我估摸着,如果GPT-4o的价格是1,GPT-6至少得3-5倍。
这就引出了一个老问题:对于大多数开发者来说,你真的需要那40%的性能提升吗?还是说你更希望GPT-4o能再便宜点、再快点?
我的看法是,GPT-6真正的意义在于证明了一件事:OpenAI还在牌桌上,而且手里还有好牌。
过去半年,Anthropic的Claude系列抢了不少风头,Google的Gemini也在稳步追赶,国产模型更是卷得飞起。OpenAI这次发布与其说是技术突破,不如说是一次「主权宣示」——我们依然是行业第一梯队,而且我们解决的是别人没解决的问题。
不过话说回来,「长期任务执行」这个能力到底能不能兑现,还得看实际落地。发布会上的 demo 永远比真实场景简单。我已经申请了我的API额度,等真正上手之后再给大家写个详细的实测报告。
毕竟,模型好不好,跑起来才知道。