OpenAI凌晨发新模型:o3和o4-mini的视觉推理到底牛在哪?

凌晨两点,OpenAI的推文把我震醒了。o3和o4-mini正式发布。不是GPT-5,而是o系列的新成员——主打视觉推理。

什么是视觉推理?

简单说,以前的AI看图是这样的:用户问图里有几只猫,AI回答3只。现在是这样的:用户问流程图有什么逻辑漏洞,AI分析后指出第3步和第5步存在循环依赖。

区别在于,前者是识别,后者是理解加推理。

技术细节拆解

OpenAI这次公布的技术细节不算多,但有几个点值得关注:

1. 原生多模态架构

o3不是先视觉编码器提取特征再丢给语言模型的老套路。按照OpenAI的说法,这是原生多模态——图像和文本在模型的早期层就开始交互。

2. 推理时计算扩展

o系列的核心设计是:给模型更多思考时间,让它在回答前进行内部推理。o3把这个机制扩展到了视觉领域。

写在最后

o3和o4-mini的发布,说明OpenAI在多模态这条路上走得更远了。对于日常聊天、写作、翻译这些高频场景,o3的优势并不明显。但对于程序员看代码截图找bug、数据分析师理解复杂图表等场景,视觉推理能力非常有价值。