「世界模型」赛道爆发:腾讯阿里同日亮剑,AI开始理解物理世界

4月17号这一天,国内AI圈有点意思。

腾讯和阿里巴巴选在同一天发布各自的「世界模型」新品。这种「撞车」在科技圈不多见,要么是巧合,要么是双方都觉得这个赛道不能再等了。

我个人的感受是,后者可能性更大。

什么是世界模型?

先简单说下概念。传统的大语言模型(LLM)处理的是文本,多模态模型能处理图文,而世界模型(World Model)要更进一步——它试图让AI理解物理世界的规律。

比如,你让AI看一段视频:一个人把球扔出去。世界模型不仅能识别「这是球」「这是扔的动作」,还能预测「球会沿着抛物线运动」「落地后会反弹」。

说白了,世界模型想让AI具备像人类一样的「常识物理」理解能力。

这事儿为什么重要?因为目前的AI虽然能聊天、能写诗、能画画,但在理解真实世界这方面还很弱智。比如自动驾驶,遇到复杂路况就容易出问题,根本原因就是AI对物理世界的理解不够。

腾讯和阿里各打了什么牌?

腾讯混元3.0的重点是「实时交互」。官方演示里,用户可以用自然语言控制虚拟场景中的物体,AI能实时理解意图并反馈。

举个例子,你说「让那个红色的球滚到桌子边缘」,AI能理解「红色」「球」「桌子边缘」这些概念,还能模拟出球滚动的物理效果。

阿里通义千问的世界模型则更强调「长程预测」。据说能预测未来10秒内的物理变化,在机器人操作、工业仿真等场景有应用价值。

两家公司的技术路线不太一样,但目标是一致的:让AI从「看懂画面」进化到「理解世界」。

为什么是现在?

说实话,世界模型这个概念不算新。2023年图灵奖得主Yann LeCun就一直鼓吹世界模型是AI的下一个突破方向。

但为什么今年突然爆发了?

我觉得有两个原因:

第一,技术成熟了。 大模型的基础能力到了一定水平,多模态融合、视频理解这些关键技术都有了突破,做世界模型的「原材料」齐备了。

第二,应用场景清晰了。 自动驾驶、机器人、工业仿真、虚拟现实——这些领域都急需能「理解物理世界」的AI。有需求就有投入,有投入就有进展。

对行业意味着什么?

腾讯阿里同日发布世界模型,释放了一个信号:AI竞争正在从「语言对话」转向「空间理解」

以前的竞争焦点是谁的模型更会说人话,现在的焦点是谁的模型更能理解真实世界。

这个转变的影响可能很大:

对自动驾驶行业来说,世界模型可能是突破L4/L5的关键。如果AI能准确预测周围物体的运动轨迹,安全性会有质的提升。

对机器人行业来说,世界模型让机器人具备了「常识」,能在更复杂的环境下自主决策。

对内容创作行业来说,世界模型可能带来真正的「AI拍电影」——不是简单的视频生成,而是AI理解剧情、物理规律后生成的连贯内容。

我的看法

作为一个前算法工程师,我对世界模型是谨慎乐观的。

谨慎是因为,物理世界的复杂度远超想象。人类婴幼儿花几年时间才能建立基本的物理直觉,AI想在短时间内达到同样水平,难度不小。

乐观是因为,大模型的发展速度确实超出了很多人的预期。两年前谁能想到现在的AI已经能写出像样的代码、画出精美的插画?

腾讯和阿里这次「撞车」发布,说明国内大厂在这个赛道上已经开始发力。接下来几个月,我们应该能看到更多进展。

对于普通人来说,世界模型可能还不会马上改变生活。但如果技术真的突破了,自动驾驶、智能机器人这些「未来科技」可能就会加速到来。

这事儿挺值得关注的。