腾讯阿里同日发布世界模型:国产 AI 的「空间智能」竞赛打响
4 月 11 日到 17 日这一周,国内 AI 圈发生了一件有意思的事:腾讯和阿里巴巴在同一天发布了各自的世界模型。
不是商量好的,就是纯粹的巧合。但这种「撞车」,恰恰说明了一件事:世界模型,或者说「空间智能」,正在成为大模型竞争的下一个主战场。
为什么是世界模型?
先解释一下什么是世界模型(World Model)。
简单说,就是让 AI 不仅能理解语言,还能理解物理世界——空间关系、物体运动、因果关系。
之前的 AI,你问它「桌子上的杯子被打翻了,水会流到哪」,它可能能答对,但那是基于文本统计的「猜」,而不是真正的「理解」。
世界模型的目标是让 AI 建立对物理世界的内部表征,像人一样具备「常识」。
腾讯和阿里做了什么?
腾讯混元:发布了 3D 生成大模型,可以从单张图片生成可交互的 3D 场景。技术上用的是扩散模型 + NeRF 的结合,支持实时渲染。
阿里巴巴:通义千问团队发布了「空间理解」大模型,主打场景理解和空间推理。 demo 里展示了让 AI 规划房间布局、理解家具摆放的合理性。
两家路径不太一样:
- 腾讯偏「生成」——我给你一张图,你生成 3D
- 阿里偏「理解」——我给你一个场景,你告诉我这是什么、该怎么布置
这背后的信号
第一,大模型竞争正在从「语言智能」转向「空间智能」。
ChatGPT 证明了语言模型的威力,但语言只是人类智能的一部分。要做出真正的通用人工智能,空间理解是绕不开的。
第二,国产大模型开始有自己的差异化路线。
以前我们老说国产模型是「跟随者」,OpenAI 做什么我们跟什么。但世界模型这个赛道,大家其实差不多同时起步。腾讯阿里的这次发布,说明国内大厂也在尝试定义新的技术方向。
第三,应用场景更明确了。
世界模型最直接的应用是自动驾驶、机器人、AR/VR。这些正是中国公司有优势的领域——我们有庞大的制造业基础,有丰富的应用场景。
但问题也很明显
说实话,看完两家发布的 demo,我的感受是:有进步,但离「可用」还有距离。
腾讯的 3D 生成,细节还不够精细,纹理有时候会糊。阿里的空间理解,在简单场景表现不错,但复杂场景还是会犯错。
更重要的是,这两个模型现在都是「demo 阶段」,没有开放 API,没法大规模测试。
我的看法
世界模型是下一个必争之地,这个判断没问题。但谁能跑出来,现在还不好说。
OpenAI 的 Sora 证明了视频生成的可能性,但 Sora 不是世界模型——它生成的是「看起来像视频的画面」,而不是「理解物理规律的视频」。
真正的世界模型,需要解决因果推理、物理仿真、长期规划这些难题。这些都不是靠堆算力就能解决的。
国产大模型在这个赛道上有机会,因为我们的应用场景丰富。但技术上,还需要更多原创性的突破,而不是跟随。
你觉得世界模型会是国产 AI 的弯道超车机会吗?