谷歌Gemma 4来了：31B参数打平620B模型，还能在手机上跑

Gemma 4, 谷歌开源, 多模态模型, 边缘计算 — 21 4月 2026

昨天刷Twitter,看到一条让我愣了几秒的消息:谷歌发布了Gemma 4,而且31B参数的版本,性能居然打平了参数量20倍的模型。

我第一反应是「这不可能吧」,然后点进去看了眼Arena AI的榜单。

好家伙,还真不是吹的。31B Dense版本排在开源榜第三,前面只有两个比它大得多的模型。

说实话,这事儿挺有意思的。从前我们聊开源模型,基本就是「够用就行,别指望跟闭源打」。现在倒好,开源模型开始「反向吊打」了。

四个规格,覆盖从手机到服务器

Gemma 4这次一口气发了四个版本:E2B(2.3B)、E4B(4.5B)、26B MoE、31B Dense。

我个人的感受是,谷歌这次是真的想把开源生态「铺开」,而不是「秀肌肉」。

2.3B和4.5B这两个小模型,可以在Pixel手机、树莓派、NVIDIA Jetson Orin Nano这些边缘设备上离线运行。这意味着什么?意味着你可以真的把AI模型塞进手机里,不用联网,不用云端,直接本地推理。

而且支持实时语音理解,延迟接近零。

这让我想起两年前,大家还在讨论「模型能不能跑在手机上」,现在谷歌直接给你答案:不仅能跑,还能跑得挺好。

另一个让我觉得「这事儿做得对」的地方:Gemma 4原生支持图像、视频、音频输入。

注意,是「原生支持」,不是「加个视觉编码器当补丁」。

这就像你盖房子,是从地基开始就规划好要住多少人、要有几间房,而不是盖完了再打隔断。

原生多模态的好处是模型能真正理解不同模态之间的关系,而不是「看图说话」那种生硬的拼接。对于开发者来说,调用也更简单,不用自己搭桥。

256K上下文窗口,相当于能一次性处理几十万字的文档,或者几个小时的视频。

140+语言支持,这个数字我专门去查了下,确实不是吹的。中文、英文、日文、韩文这些主流语言不用说,连一些小语种都覆盖了。

说实话,这两点加起来,让Gemma 4在「实用性」上直接拉满。很多开源模型要么上下文短,要么语言支持少,Gemma 4算是把这两个痛点都解决了。

这点我得专门说一句,因为很多开源模型看着开源,实际协议里一堆限制,商用要花钱,改了代码要开源,搞得开发者很头疼。

说实话,这才叫「真开源」。那种「开源但不能商用」的,我只能说是「开源了个寂寞」。

回到开头那个让我愣住的问题:31B参数的模型,怎么就能打平20倍参数量的模型?

我个人的理解是:谷歌这几年在「模型效率」上的投入,可能比「模型规模」还要大。

简单说,就是让模型「学得更聪明」,而不是「学得更多」。通过优化架构、训练数据、蒸馏技术,让小模型能学到之前只有大模型才能掌握的东西。

这就像同样学一门课,有人靠死记硬背刷题(堆参数),有人靠理解原理举一反三(提效率)。后者虽然「学得少」,但效果不一定差。

当然,具体的实现细节谷歌没公开,我也只能猜。但至少从结果看,这条路是走得通的。

谷歌这次发力开源,我觉得信号挺明确的:不想让Meta(Llama系列)独占开源生态的话语权。

这两年Meta的Llama系列在开源圈基本是「一家独大」,谷歌虽然也有开源项目,但一直没什么存在感。Gemma 4这次算是「真刀真枪」地入场了。

对开发者来说,这当然是好事。有竞争才有选择,有选择才有进步。

我也说不太清楚未来开源生态会怎么演化,但至少现在看来,谷歌的入场让这个赛道更有意思了。

最后说句实在话:参数量这东西,从前是「越大越好」,现在开始变成「越聪明越好」。

31B打平620B这个结果,某种程度上是在提醒我们:别再盲目追参数了,看实际效果才是正道。

就像买车,不是排量越大越好,得看动力系统、调校、匹配。你开个6.0L的越野车在城市里堵着,还不如1.5T的轿车来得舒服。

模型也是一样。适合自己的场景,才是最好的。