腾讯阿里同日发布世界模型：国产AI的「空间智能」之战

阿里, 腾讯, 世界模型 — 20 4月 2026

这周的AI圈有点热闹。

4月11日到17日，腾讯和阿里在同一天发布了世界模型新品。巧合？我觉得不像。更像是两家公司都憋着劲，要在「空间智能」这个赛道上抢个身位。

说实话，看到「世界模型」这个词的时候，我第一反应是：又来一个新概念。

但这次不太一样。

什么是世界模型？为什么突然火了？

过去两年，大模型的竞争主要集中在语言能力上——谁对话更自然，谁推理更准确，谁代码写得更好。但有一个问题一直没解决：AI不懂物理世界。

举个例子，你让大模型「描述把杯子放在桌子上的过程」，它能生成一段很流畅的文字，但它不知道杯子会掉下去、桌子有边界、重力是向下作用。它只是从训练数据中学会了「这样的问题应该这样回答」，而不是真正理解了物理规律。

世界模型就是为了解决这个问题而生的。它不是简单的语言模型，而是能模拟物理世界运行规律的模型。简单说，就是让AI「学会像人一样理解空间、时间、因果关系」。

腾讯和阿里在做什么？

从公开信息看，两家公司走的路线不太一样。

腾讯的世界模型，更偏重于「多模态融合+物理引擎」。他们用游戏和仿真环境的海量数据训练模型，让AI能在虚拟空间中预测物体运动、理解因果关系。这个方向其实很聪明——腾讯有游戏业务，天然就有高质量的物理仿真数据。

阿里的世界模型，则更侧重于「电商场景+空间计算」。他们在发布会上展示了几个应用：虚拟试衣、3D商品展示、智能仓储路径规划。这些场景有个共同点：都需要AI理解物体在空间中的位置、形状、遮挡关系。

这事儿有多难？

说句实话，挺难的。

首先是数据。语言模型的训练数据是文本，世界模型的训练数据是「物理世界的运行记录」。文本好收集，物理世界的运行记录难搞。你得有传感器、有仿真环境、有标注数据，这些都不是现成的。

其次是计算。世界模型要同时处理视觉、听觉、触觉、空间关系，计算量比纯语言模型大几个数量级。我看过一些论文，训练一个像样的世界模型，算力成本是同规模语言模型的5-10倍。

最后是评价标准。语言模型好不好，问几个问题就能测出来。世界模型好不好，你得让它「预测未来」，但未来不可预测——这事儿本身就挺悖论的。

这波发布，是技术突破还是营销噱头？

我觉得介于两者之间。

从技术角度看，两家公司确实在往正确的方向走。世界模型是大模型从「语言智能」到「空间智能」的必经之路，这一点行业共识度很高。腾讯的游戏数据优势、阿里的电商场景优势，都是真实存在的。

但从产品角度看，这次发布更像是一次「技术演示」。展示的功能，离真正落地还有距离。比如虚拟试衣，发布会上的demo很酷，但实际应用中，用户的身材、光线、手机摄像头质量都会影响效果，这些变量比演示环境复杂得多。

为什么我关注这个？

因为世界模型的成熟，会直接改变AI的应用边界。

现在的大模型，本质上是「文本理解+文本生成」。它能帮你写代码、写文案、做翻译，但让它帮你「规划房间布局」「设计工厂流水线」「预测交通拥堵」，它做不到。

世界模型补上这一块后，AI的应用场景会从「文本世界」扩展到「物理世界」。这事儿的意义，可能不亚于从PC互联网到移动互联网的跨越。

当然，这个时间点可能比我预期的要晚。技术突破和产品落地之间，总是有鸿沟的。但我个人觉得，这次腾讯和阿里的动作，至少说明国内大厂在往正确的方向走。

别急，先看落地。技术再先进，解决不了真实问题都是空谈。

阿里「欢乐马」登顶：Sora倒下后，国产AI视频终于扬眉吐气