Meta Muse Spark模型上线：多模态能力仍处早期，但方向值得关注

多模态, AI模型, Meta, Muse Spark — 22 4月 2026

Meta在4月8日悄悄上线了一个叫Muse Spark的新模型，没怎么大肆宣传，但在技术圈子里还是引起了一些讨论。

我第一时间去试了一下，说实话，第一感受是：这玩意儿现在还很糙。文本生成的流畅度明显不如GPT-5.4和Claude，图像理解也经常出现「幻觉」——比如把图中的猫认成狗这种低级错误。

但作为一个前算法工程师，我更关注的是它背后的架构设计。Muse Spark采用的是一种混合专家架构（Mixture of Experts），但在路由策略上和传统的MoE有些不同。Meta的论文里提到，他们引入了一种「任务感知路由」，让模型能根据输入内容的类型动态选择专家子网络。

这个思路其实挺有意思的。现在主流的多模态模型，比如GPT-4V和Gemini，基本上是把图像和文本的编码器拼在一起，然后丢给一个统一的Transformer处理。但Muse Spark的做法更像是让模型自己决定：「哦，这是个图像任务，那我应该调用视觉专家；这是个推理任务，那我需要逻辑专家。」

这种架构的优势在于效率和可扩展性。理论上，你可以不断添加新的专家模块，而不需要重新训练整个模型。Meta显然在为未来的功能扩展铺路——现在支持图文，以后可能支持视频、3D、音频，只需要加对应的专家就行。

不过问题也很明显。路由机制本身就成了一个瓶颈，如果路由错了，后面的专家再强也没用。我在测试中就遇到不少这种情况：模型明显「走错了门」，把图像理解任务路由到了文本专家那里，结果输出完全不着调。

Meta自己也承认，Muse Spark目前还处于「预览版」状态，不建议用于生产环境。我觉得这是比较诚实的表述，不像有些公司把早期产品吹成「颠覆性突破」。

整体来看，Muse Spark代表了多模态模型的另一种技术路线。它现在还不成熟，但长期看，这种模块化、可扩展的架构可能比「大力出奇迹」的单一模型更有生命力。

阿里「小酒窝」出道：憋了两年的大招，我扒开了看