MiniMax M2.7开源:2290亿参数,但我更在意它“自驱迭代”这个设计
MiniMax前两天放出了M2.7开源的消息。我看到很多报道都在强调2290亿参数这个数字——说实话,这个参数量的确很大,但今天我想重点聊聊另一个特性:官方宣称M2.7能够”自主构建AgentHarness并通过强化学习驱动自身迭代”。
这句话是什么意思?我来翻译一下。
传统的模型训练流程是:人工设计训练数据——>训练——>评估——>人工调整——>再训练。整个迭代周期里,人力成本是最大的瓶颈。
M2.7的设计思路是:模型自己生成训练任务(AgentHarness),然后自己评估效果,再自己调整。整个过程可以自动化循环。这意味着什么?迭代速度可能会大幅提升。
但我更关心的是另一个问题:这种”自驱迭代”的质量如何保证?
如果模型生成的任务本身就是有偏差的,那迭代出来的模型也会继承甚至放大这个偏差。这是一个还没被充分验证的风险点。MiniMax在论文里提到他们用了一些约束机制来控制,但我还没看到详细的消融实验数据。
不过话说回来,这个方向本身是很有价值的。不管M2.7最终效果如何,”模型自驱迭代”这个范式如果能走通,对整个AI行业都会有深远影响——它可能比单纯增加参数更能推动能力提升。
我的态度是:保持关注,谨慎乐观。技术路径走得通,但工程落地还需要时间验证。