GPT-Image-2正式发布:OpenAI的图像生成终于「能用了」?

说实话,看到GPT-Image-2发布的消息,我的第一反应是:又来?

OpenAI在图像生成这条路上走得并不顺。DALL-E 3出来的时候,大家都觉得「卧槽这个真的牛」,但用着用着就发现——生成的人物总是有种「AI味」,文本渲染更是灾难,写个简单的「Hello World」都能错一半。

所以这次GPT-Image-2的宣传重点很明确:更好的文本渲染、更高分辨率、更自然的图像质量。我拿到API权限后第一时间测了一波,聊聊真实感受。

先说结论:确实比DALL-E 3强了,但要说「颠覆」还谈不上。

文本渲染是我重点测的项目。之前用DALL-E 3生成带文字的图片,基本得靠后期PS补救。GPT-Image-2在这点上进步明显——简单的单词、短句基本能正确渲染,但我试了段稍微复杂点的中文,还是会出错别字。英文的稳定性明显好于中文,这也能理解,训练数据的语言分布摆在那里。

图像质量方面,GPT-Image-2支持最高2K分辨率,细节确实更丰富。我让它生成了一张「赛博朋克风格的东京街头」,放大看霓虹灯的反光、地面的积水倒影都处理得不错。但人物皮肤纹理还是能看到那种「过度平滑」的AI特征,这一点Midjourney V7做得更好。

生成速度比DALL-E 3快了不少,一张1024x1024的图片大概3-4秒就能出来。这个价格嘛……比DALL-E 3贵了一倍。说实话,如果是做内容创作的,这个成本得好好算笔账。

我对比了一下Midjourney V7和Stable Diffusion 3.5。Midjourney在艺术感上还是有优势,色彩更饱满,构图更有「设计感」;Stable Diffusion 3.5胜在可控性和本地部署,商业项目里更实用;GPT-Image-2的优势可能是和ChatGPT的整合——如果你本来就在用ChatGPT Plus,无缝集成确实方便。

最后说个有意思的发现。我试了一个prompt:「一张写着『AI不会取代人类,但会用AI的人会』的白板照片」。GPT-Image-2居然把「取代」写成了「替带」。这让我想起之前DALL-E 3的经典翻车现场——看来文本渲染这个硬骨头,OpenAI还没有完全啃下来。

总的来说,GPT-Image-2是一次稳扎稳打的迭代,不是革命。如果你是重度图像生成用户,值得试试;如果只是偶尔用用,DALL-E 3或者Midjourney对你来说差别不大。

这事儿挺有意思的——图像生成领域的竞争越来越激烈,各家都在挤牙膏式更新,真正的突破可能还在路上。