GPT-6终于官宣:OpenAI的「土豆计划」到底藏了什么野心?
说实话,OpenAI这波官宣选的时间点挺有意思。
就在昨天凌晨,GPT-6 正式官宣。内部代号叫「Spud」(土豆),名字土得让我愣了一下——你家万亿参数的旗舰模型,怎么取了这么个接地气的外号?
但看完发布文档,我明白了。这哪是土豆,分明是颗重磅炸弹。
先说重点:参数和训练
官方没公布确切数字,但业内普遍猜测 GPT-6 的参数量在 8-10 万亿级别。对比 GPT-5.4 的约 1.8 万亿,这是实打实的代际跨越。
更关键的是训练数据。OpenAI 这次采用了「多模态原生」架构——不是先训文本再加图像/视频模块,而是从一开始就把所有模态混在一起训。这意味着什么?
意味着 GPT-6 理解世界的方式更像人了。我们不是先学会文字再学会看图,而是同步接收各种信息。
训练成本方面,据 The Information 的消息,GPT-6 的单次训练成本在 15-20 亿美元。这是什么概念?等于烧掉了两个独角兽公司的估值。
技术突破:不只是「更大」
OpenAI 这次重点强调了两个能力:
第一,跨模态推理。
之前的模型,你给它一张图问问题,它是在「描述图片」;GPT-6 是在「理解场景」。演示视频里有个例子:输入一张 messy kitchen 的照片,问「如果我要做一道需要用到烤箱的菜,需要先清理哪些地方?」
模型不仅指出了烤箱里的残渣,还推理出「水槽堆着脏盘子会影响操作台空间」。这种因果链推理,明显上了一个台阶。
第二,工具使用的「主动性」。
GPT-5.4 也能调用工具,但基本是你说一步它做一步。GPT-6 开始有了「为了完成目标,我自己决定用什么工具」的意识。
官方 demo 里有个场景:用户说「帮我规划一个三天两晚的京都行程,要包含寺庙和美食,预算 5000 人民币」。
GPT-6 没有直接开始写攻略,而是先反问:「你偏好传统日式旅馆还是现代酒店?对生食接受度如何?」
这很关键。它不是盲目执行,而是在主动收集信息以优化输出。
但我有个疑问
看完发布会,我脑子里一直有个声音:这么强的模型,OpenAI 打算怎么放出来?
GPT-5.4 已经很贵了。GPT-6 如果按现有定价逻辑,API 调用成本可能是 5.4 的 3-5 倍。普通开发者用得起吗?
另一个问题是延迟。参数越大,推理越慢。实时交互场景(比如语音助手)怎么办?OpenAI 肯定也意识到了,发布会上专门提到了「推理优化」和「分层服务」——简单说就是,简单任务用小模型,复杂任务才唤醒大模型。
这个思路是对的,但具体效果如何,还得等实际上手才知道。
土豆背后的野心
代号 Spud,我猜有一层意思是:这是 OpenAI 的「根基作物」。
1220 亿美元融资刚完成,8520 亿美元估值。这笔钱要烧去哪?GPT-6 就是答案。OpenAI 正在把所有筹码压在一个方向上:通往 AGI 的终局。
我不是 AGI 乐观派,但这次发布让我感觉到了一丝不同。不是「又变强了」,而是「变强的方式变了」。多模态原生、主动工具使用、场景化推理——这些不是量的累积,是质的转变。
当然,模型还没开放。等我能亲手测试那天,再跟你们细聊。