GPT-Image-2发布:图像模型终于学会「思考」了?

又来一个「思考」。

GPT-Image-2发布了,官方给它贴了个标签:首个具备「思考」能力的图像模型。看到这个词的时候,我本能地皱了下眉——这年头,AI厂商给产品起名字,越来越喜欢往「人类特质」上靠了。

别急,先看看它到底做了什么。

在大模型竞技场(Chatbot Arena)上,GPT-Image-2在文本到图像任务中,断层领先第二名Nano Banana 2整整240分。240分是什么概念?就是那种「你还在及格线挣扎,别人已经保研」的差距。这确实是个不小的领先幅度,说明OpenAI在图像生成这块,确实下了功夫。

但「思考」到底体现在哪?我个人的感受是,这可能是指模型在生成图像之前,会先进行「推理」——比如理解文字中的逻辑关系、空间布局、甚至是隐含的意图。以前的图像模型,更多是「看到关键词就画」,现在的GPT-Image-2,可能更像是在「先想清楚要画什么,再动笔」。

这事儿挺有意思的。我记得去年用Midjourney的时候,想让它画一个「左手拿苹果右手拿香蕉的人」,它愣是给我画出了三个苹果。问客服,客服说「我们的模型更擅长艺术创作,不擅长理解复杂指令」。行吧,至少诚实。

上周我还试了一下DALL-E 3,让它画一个「从窗户往外看的城市夜景,窗台上放着一杯咖啡」。画是画出来了,但窗台上的杯子永远只有半个,好像窗户把杯子吃掉了一半似的。这就是现在图像模型的通病:理解能力跟不上生成能力。

所以GPT-Image-2这次的「思考」标签,我愿意给它一个机会验证一下。如果真的能理解「左手」和「右手」的区别,能画出完整而不是半截的杯子,那这个「思考」就不只是营销话术了。

说实话,我对OpenAI的印象,在这几年里起起伏伏。GPT-4刚出来的时候,觉得这公司真牛;后来API频繁宕机、各种限制,觉得这公司越来越商业化;现在GPT-Image-2出来,又觉得…嗯,至少在技术上,他们还是在认真做事的。

不过话说回来,图像生成这个领域,竞争可比文本生成激烈多了。Midjourney、Stable Diffusion、DALL-E、现在的GPT-Image-2,还有一堆国产模型,大家都在卷。240分的领先优势,能保持多久?很难说。

对了,还有个细节。GPT-Image-2的官方名称是「ChatGPT Images 2.0」,不是「DALL-E 4」。这说明OpenAI在品牌策略上做了调整——把图像生成能力直接整合到ChatGPT产品线里,而不是单独搞一个DALL-E。这招挺聪明的,毕竟ChatGPT的用户基数摆在那,直接在聊天框里就能生成图像,用户体验更顺畅。

最后留个问题:你觉得图像模型的「思考」能力,对你来说重要吗?还是说,只要画得好看,管它有没有「思考」,能出图就行?