DALL-E 4 发布:我上手试了三天,发现这次不只是画得更好了
说实话,OpenAI 这波更新有点出乎我意料。
DALL-E 4 在 4 月 5 日悄悄上线,没有发布会,没有预热,就是在 Twitter 上发了个更新日志。但当我真正上手试了三天之后,我发现这次更新可能比很多人想象的要重要得多。
先说最直观的变化:文字渲染。以前用 AI 生成图片,文字基本是重灾区——要么拼写错误,要么字体崩坏,要么直接变成外星文。但 DALL-E 4 这次是真的把文字「写对」了。我试了几十个 prompt,路标、海报、书籍封面,英文准确率至少在 90% 以上。中文还差点意思,但也比前代好太多。
这意味着什么?意味着 AI 图像生成终于能用在「正经地方」了。广告图、产品包装、PPT 配图,这些场景以前根本不敢用 AI,因为文字一错就露馅。现在 DALL-E 4 把这个最短的短板补上了。
第二个亮点是长宽比控制。以前生成图片基本只有 1:1,想做横图竖图得自己裁,裁完构图就崩了。现在 DALL-E 4 支持从 9:16 到 16:9 的任意长宽比,而且是原生生成,不是后期裁剪。我试了一张 21:9 的宽屏电影海报,构图完整性比裁剪版好太多了。
第三个功能是多轮编辑。这个说实话有点「Photoshop 危机」的味道。你生成一张图之后,可以圈出某个区域,说「把这个人的帽子换成红色」,「把背景里的树去掉」,AI 会只改你指定的部分,其他地方完全不动。我试了十几次,边缘融合做得相当自然,没有明显的拼接痕迹。
但我个人感受是,DALL-E 4 这次最大的突破,可能不是「画得更好看」,而是「更可控」。
之前的 AI 绘画工具,最大的问题是「随机性太强」。你写一个 prompt,它生成十张图,可能只有一张能用。这种不确定性对于个人玩家还好,但对于商业场景就是噩梦——你不能跟客户说「我再刷 100 次,总有一张你满意的」。
DALL-E 4 在可控性上做了两个关键改进。一是 prompt 理解更精准了,你写「一只戴着红色围巾的柴犬」,它真的会给你一只柴犬戴着红色围巾,而不是给你一只哈士奇戴着蓝色围巾再加一顶帽子。二是新增了「种子复现」功能,你可以指定一个 seed 值,在同样的 prompt 下生成几乎一样的图。这对需要批量生成风格统一素材的场景简直是救命稻草。
当然,DALL-E 4 不是没有槽点。
定价还是偏贵。官方说每张图成本比 DALL-E 3 降低了 30%,但折算下来,生成一张 1024x1024 的图还是要 0.04 美元,一天生成 100 张就是 4 美元,一个月 120 美元。对于个人创作者来说,这个成本还是得掂量掂量。
另外就是竞品压力。Midjourney V7 在艺术风格化上还是更强,Stable Diffusion 4 在开源生态上有优势,DALL-E 4 想一统江湖还不现实。而且说实话,如果你的需求是「画一张好看的图」,三家的差距已经没那么大了。真正的竞争,可能会转到「谁能更好地集成到工作流里」这个维度。
我更关心的是,AI 图像生成的下一个瓶颈在哪。
现在的模型已经能画得很像、文字也能写对了、构图也能控制了,但有一个问题还是没解决:你依然很难「精准复现」你脑子里那个画面。
你脑子里想的是「一只在夕阳下奔跑的金毛,背景是海边,光线要温暖」,你写出来的 prompt 可能只是「a golden retriever running on beach at sunset」。AI 会给你一张图,但可能光线不够温暖,或者狗的姿态不对,或者海边的氛围感不够。你得反复调整 prompt,刷很多次,才能接近你想要的效果。
这个「从想法到图像」的鸿沟,可能才是 AI 图像生成工具下一个要攻克的难关。
DALL-E 4 已经能帮你「画得更好」了,但还做不到「画你想画的」。这中间的差距,可能需要的不只是模型能力的提升,而是全新的交互方式。
所以回到最开始的问题:AI 图像生成工具已经这么强了,你觉得还有哪个环节是「做不到」的?
我的答案是:它还做不到「读心」。它能画得很好,但它不知道你真正想要什么。这个「意图理解」的鸿沟,可能才是下一个战场。