谷歌TPUv8双芯来了:这次对英伟达的挑战,可能来真的

上周我看到一个新闻,没当回事——谷歌要和Marvell合作做AI芯片。然后我仔细看了一眼配套的参数,感觉有点不一样了。

今天这个新闻的后续来了:谷歌将在本周Google Cloud Next大会上,正式发布TPUv8系列。

这次不是一款芯片,是两款。

TPUv8t,由博通设计,主打高性能训练加速器。
TPUv8i,由联发科操刀,主打高性价比推理加速器。

这个分工很有意思——训练和推理分开了。不是之前那种一块芯片”既能训练又能推理”的思路,是真的按场景拆开了做。

说实话,谷歌这步棋我等了很久。

英伟达的GPU在AI训练上确实强,但强不等于”性价比最优”。训练阶段需要大算力,GPU的通用性是优势;但到了推理阶段,专用芯片在单位算力成本上完全可以打赢GPU——这个逻辑我在大厂做算法的时候就想过无数遍。谷歌能走到这一步,说明内部有人想清楚了。

关键问题是:这次能成吗?

我的判断是:能成一部分,但彻底取代英伟达是扯淡。

先说能成的部分。

TPUv8i的定位很务实——不是要打败H100,是要做”比H100便宜、比CPU快”的推理芯片。联发科在移动SoC上的能效比优化能力是业界公认的,把它用在AI推理芯片上,思路是对的。如果定价能做到英伟达同级产品的60-70%,很多中小型云厂商会心动。

再说不能成的部分。

英伟达真正的护城河不是芯片本身,是CUDA生态。全球几千万开发者的代码、工具链、实验室的benchmark,全部基于CUDA构建。你让一个企业把训练基础设施从英伟达切到TPUv8,光迁移成本就能让CTO睡不着觉。这不是技术问题,是整个生态的问题。

谷歌也有自己的TPU生态——但这个生态是封闭的,只有在谷歌云上才能用。你用了TPU,就等于绑定了谷歌云。这对某些企业来说是优势,对另外一些企业来说恰恰是劣势。

所以这次发布会的真实意义,我认为是:给英伟达的”定价权”敲了个警钟。

OpenAI刚宣布向Cerebras采购超过200亿美元的芯片。英伟达自己花了200亿美元收购Groq。现在谷歌也来了。三家芯片公司同场竞技,AI基础设施的定价权争夺,才刚刚开始。

对普通开发者来说,这其实是好事——算力成本下降的趋势,不会因为英伟达的GPU涨价而改变。只是这个趋势的到来,可能比我们想象的慢一点。

别急,先看数据。等TPUv8i的实测性能出来,我们再聊。

——林锐,写于深圳

今日互动:你目前在用哪家云厂商的AI算力?英伟达还是其他?欢迎留言告诉我。