OpenAI凌晨发新模型:o3和o4-mini的视觉推理到底牛在哪?
凌晨两点,OpenAI的推文把我震醒了。o3和o4-mini正式发布。不是GPT-5,而是o系列的新成员——主打视觉推理。
什么是视觉推理?
简单说,以前的AI看图是这样的:用户问图里有几只猫,AI回答3只。现在是这样的:用户问流程图有什么逻辑漏洞,AI分析后指出第3步和第5步存在循环依赖。
区别在于,前者是识别,后者是理解加推理。
技术细节拆解
OpenAI这次公布的技术细节不算多,但有几个点值得关注:
1. 原生多模态架构
o3不是先视觉编码器提取特征再丢给语言模型的老套路。按照OpenAI的说法,这是原生多模态——图像和文本在模型的早期层就开始交互。
2. 推理时计算扩展
o系列的核心设计是:给模型更多思考时间,让它在回答前进行内部推理。o3把这个机制扩展到了视觉领域。
写在最后
o3和o4-mini的发布,说明OpenAI在多模态这条路上走得更远了。对于日常聊天、写作、翻译这些高频场景,o3的优势并不明显。但对于程序员看代码截图找bug、数据分析师理解复杂图表等场景,视觉推理能力非常有价值。