48小时三家连发:世界模型赛道,这是要「卷」起来了?
周二晚上10点,我正准备关电脑睡觉,群里突然炸了——阿里云发了世界模型HappyOyster。
我揉了揉眼睛,心想这不就是个视频生成工具吗,至于这么大动静?
结果第二天早上醒来,腾讯开源了混元3D世界模型2.0。紧接着周三,群核科技在港交所敲钟,成了「全球空间智能第一股」。
48小时,三连发。这节奏,让我想起2023年ChatGPT刚出来那会儿——几乎每天都有新东西,搞得人连睡觉都觉得在浪费时间。
世界模型到底是啥?
先别被「世界模型」这个词吓到。说白了,就是让AI不仅能「生成」画面,还能「理解」画面里的物理规律和空间关系。
打个比方:传统视频生成模型就像个只会画画的艺术家,你让它画个球落地,它可能画得挺好看,但球是怎么弹起来、怎么滚动的,它不管,也不懂。
世界模型不一样。它脑子里有个「物理引擎」,知道重力、碰撞、材质这些概念。所以当你说「一个球从桌上掉下来」,它不只是生成画面,而是在「模拟」这个过程。
这事儿挺有意思的:从「生成」到「模拟」,听起来就差两个字,但背后的技术难度和商业价值,完全是两个量级。
阿里的「快乐生蚊」:不是视频生成,是世界模拟器
阿里这次发布的HappyOyster(代号「快乐生蚊」,这名字我服了),定位很明确:不是视频生成工具,是「世界模拟器」。
它有两个模式:漫游模式和导演模式。
漫游模式支持1分钟连续实时位移,意味着你可以像玩3D游戏一样,在AI生成的场景里「走动」。这比传统视频生成那种「只能看不能动」的体验,强了不止一个档次。
导演模式支持3分钟以上的480p/720p画面,适合做内容创作。
说实话,我个人的感受是:这东西如果真能做到宣传的效果,那就不是「视频生成工具plus」,而是「虚拟世界生成器」了。
当然,前提是它真的能做到。你也知道,这些年被PPT忽悠的次数多了,我现在看到「革命性突破」这种词,第一反应是「先看看再说」。
腾讯的开源牌:混元3D世界模型2.0
同一天,腾讯开源了混元3D世界模型2.0。
这事儿让我有点意外:腾讯这两年在AI上的策略,一直是「低调实干」,突然开源一个世界模型,而且还是3D的,这信号不太一样。
开源意味着什么?意味着你把这个赛道的技术门槛拉低了,让更多人能参与进来。这就像当年Google开源TensorFlow,直接把深度学习的门槛从「顶级实验室」拉到了「本科生毕设」。
腾讯这么做,大概率是想让世界模型这个赛道「热」起来。毕竟,赛道越热,资源越多,自己也越能受益。
群核科技上市:资本开始买账了
周三,群核科技在港交所上市,成了「全球空间智能第一股」。
这事儿的意义在于:世界模型/空间智能不再是「技术圈的自嗨」,资本市场开始认可这个赛道的商业价值了。
我也说不太清楚这算不算「世界模型的ChatGPT时刻」,但至少说明一件事:这个赛道从「技术探索」迈向了「商业化临界点」。
世界模型离实用还有多远?
当然,别急着上头。
世界模型目前的问题还不少:计算成本极高(不是一般的高,是「训练一个模型够买几套房」的那种高)、长序列建模不稳定、物理规律理解还不完善。
我个人的判断是:未来2-3年,世界模型会先在垂直场景落地(比如游戏、建筑、自动驾驶仿真),而不是一开始就做「通用世界模拟器」。
就像GPT-3刚出来时,没人指望它能直接帮你写完整的项目,都是先从「辅助写作」「代码补全」这些小场景开始。
世界模型也是一样。别想着它能一夜之间替代Unity和Unreal,先看看它能不能在你的具体场景里省点力气。
别被概念带跑了
最后说句实在话:「世界模型」这个词,现在已经开始被过度包装了。
有些产品明明就是个视频生成工具,非要给自己贴个「世界模型」的标签,搞得好像跟Genie、Sora是一个级别的。
林锐的观点向来很简单:别管它叫什么名字,看它能做什么事儿。
HappyOyster能不能真的实现「1分钟实时漫游」?混元3D能不能生成真正符合物理规律的三维场景?群核的「空间智能」到底是技术突破还是概念包装?
这些问题,不是一两篇新闻稿能回答的。得等开发者上手实测,才能见分晓。
我反正是打算找个时间亲自试一下——反正都被「卷」醒了,不如干脆看看到底卷出个什么名堂。