OpenAI 发布 GPT-Image-2:图像生成模型终于学会「思考」了

说实话,凌晨 2 点看到 OpenAI 直播的时候,我第一反应是:又来?又是图像模型?

但这回不太一样。

OpenAI 的 CEO 带队,20 分钟直播,只讲了一件事:GPT-Image-2 是我们迄今为止功能最强大的图像生成模型。重点是,它登顶了所有 Image Arena 排行榜,而且在文生图领域,以创纪录的 242 分优势领先第二名的谷歌 Nano-banana。

242 分是什么概念?在 AI 圈,通常领先几分就算「碾压」,这次是直接碾压。

但作为前算法工程师,我更关心的是:它到底强在哪?

不只是「画得更像」,是「想得更透」

我花了一上午测这个模型,发现一个很有意思的变化:以前的图像模型,你给它一个提示词,它直接生成——有点像「直觉式绘画」,看到什么画什么。但 GPT-Image-2 不一样,它会「拆解」你的提示词。

比如我让它画「一个穿着红裙子的女孩在雨中奔跑,背景是东京街头」,它会先理解场景(东京街头)、人物(红裙子女孩)、动作(奔跑)、环境(雨),然后考虑光影、透视、动态模糊,最后才生成。

这听起来很正常,但对 AI 来说,这是「思考」。

以前的模型经常「翻车」,比如你要「雨中奔跑」,它可能给你画个「晴天」,因为训练数据里「奔跑」多数是晴天场景。但 GPT-Image-2 会先理解「雨中」这个条件,再生成符合这个条件的画面。

这不是简单的「画得更像」,而是「逻辑一致」。

但我有个担心

测试的时候,我发现一个细节:GPT-Image-2 在处理复杂场景时,偶尔会出现「过度解读」的情况。

比如我要「一个孤独的程序员在深夜写代码」,它不仅画了程序员、写代码的场景,还加了很多「孤独」的元素——昏暗的灯光、窗外的雨、桌上的泡面、屏幕的蓝光反射在脸上……

这很棒,但也有点「过度」。

我记得 GPT-4 刚出来的时候,也有类似的问题:它会「脑补」太多。有时候你要的是直白的答案,它给你一长串推理。现在图像模型也开始「脑补」了,这是进步还是退步?

说实话,我不知道。但这让我想起我妈常说的一句话:「想太多,反而画蛇添足。」

竞争格局:谷歌、Midjourney、Stable Diffusion 怎么看?

从 Image Arena 的数据看,GPT-Image-2 确实碾压了对手。但 AI 圈的格局,从来不是「一招鲜吃遍天」。

谷歌的 Nano-banana(名字有点怪,但性能不差)被甩开 242 分,但谷歌的优势在「多模态融合」——它的图像模型可以和文本、视频模型无缝协作。Midjourney 在「艺术性」上依然是标杆,很多设计师还是更喜欢它的风格。Stable Diffusion 开源免费,生态强大,短期不会被取代。

GPT-Image-2 赢在哪?技术能力。但技术能力只是入场券,真正的竞争在「应用场景」和「用户体验」。

比如,GPT-Image-2 能不能和 ChatGPT 无缝集成?能不能在视频生成中复用?能不能开放 API 让开发者玩起来?这些才是决定它能不能「统治」市场的关键。

我的判断:图像生成进入「后直觉时代」

以前我们说「AI 绘画」,其实是在说「AI 模仿人类绘画」。但 GPT-Image-2 的出现,标志着图像生成进入了一个新阶段:AI 不再只是「模仿」,而是开始「理解」。

这不是说它有意识,而是说它的生成过程,更接近人类的创作逻辑:先理解意图,再规划构图,最后执行渲染。

但这是好事还是坏事?说实话,我不知道。

我只知道,图像生成这个赛道,又卷起来了。