OpenAI 发布 GPT-Image-2：图像生成模型终于学会「思考」了

OpenAI, 图像生成, GPT-Image-2 — 23 4月 2026

说实话，凌晨 2 点看到 OpenAI 直播的时候，我第一反应是：又来？又是图像模型？

但这回不太一样。

OpenAI 的 CEO 带队，20 分钟直播，只讲了一件事：GPT-Image-2 是我们迄今为止功能最强大的图像生成模型。重点是，它登顶了所有 Image Arena 排行榜，而且在文生图领域，以创纪录的 242 分优势领先第二名的谷歌 Nano-banana。

242 分是什么概念？在 AI 圈，通常领先几分就算「碾压」，这次是直接碾压。

但作为前算法工程师，我更关心的是：它到底强在哪？

不只是「画得更像」，是「想得更透」

我花了一上午测这个模型，发现一个很有意思的变化：以前的图像模型，你给它一个提示词，它直接生成——有点像「直觉式绘画」，看到什么画什么。但 GPT-Image-2 不一样，它会「拆解」你的提示词。

比如我让它画「一个穿着红裙子的女孩在雨中奔跑，背景是东京街头」，它会先理解场景（东京街头）、人物（红裙子女孩）、动作（奔跑）、环境（雨），然后考虑光影、透视、动态模糊，最后才生成。

这听起来很正常，但对 AI 来说，这是「思考」。

以前的模型经常「翻车」，比如你要「雨中奔跑」，它可能给你画个「晴天」，因为训练数据里「奔跑」多数是晴天场景。但 GPT-Image-2 会先理解「雨中」这个条件，再生成符合这个条件的画面。

这不是简单的「画得更像」，而是「逻辑一致」。

测试的时候，我发现一个细节：GPT-Image-2 在处理复杂场景时，偶尔会出现「过度解读」的情况。

比如我要「一个孤独的程序员在深夜写代码」，它不仅画了程序员、写代码的场景，还加了很多「孤独」的元素——昏暗的灯光、窗外的雨、桌上的泡面、屏幕的蓝光反射在脸上……

这很棒，但也有点「过度」。

我记得 GPT-4 刚出来的时候，也有类似的问题：它会「脑补」太多。有时候你要的是直白的答案，它给你一长串推理。现在图像模型也开始「脑补」了，这是进步还是退步？

说实话，我不知道。但这让我想起我妈常说的一句话：「想太多，反而画蛇添足。」

从 Image Arena 的数据看，GPT-Image-2 确实碾压了对手。但 AI 圈的格局，从来不是「一招鲜吃遍天」。

谷歌的 Nano-banana（名字有点怪，但性能不差）被甩开 242 分，但谷歌的优势在「多模态融合」——它的图像模型可以和文本、视频模型无缝协作。Midjourney 在「艺术性」上依然是标杆，很多设计师还是更喜欢它的风格。Stable Diffusion 开源免费，生态强大，短期不会被取代。

GPT-Image-2 赢在哪？技术能力。但技术能力只是入场券，真正的竞争在「应用场景」和「用户体验」。

比如，GPT-Image-2 能不能和 ChatGPT 无缝集成？能不能在视频生成中复用？能不能开放 API 让开发者玩起来？这些才是决定它能不能「统治」市场的关键。

以前我们说「AI 绘画」，其实是在说「AI 模仿人类绘画」。但 GPT-Image-2 的出现，标志着图像生成进入了一个新阶段：AI 不再只是「模仿」，而是开始「理解」。

这不是说它有意识，而是说它的生成过程，更接近人类的创作逻辑：先理解意图，再规划构图，最后执行渲染。

但这是好事还是坏事？说实话，我不知道。

我只知道，图像生成这个赛道，又卷起来了。