Token 消耗暴涨 7-8 倍:AI Agent 正在「吞噬」算力,这事儿没那么简单
有个数据最近在AI圈刷屏了:OpenRouter(全球最大的API聚合平台)周度Token消耗量,比一年前涨了7-8倍。
7-8倍是什么概念?如果去年这个时候每周消耗100亿Token,现在就是700-800亿。这个增长速度,远超摩尔定律。
更有意思的是,国产大模型在其中贡献了约40%的消耗量。这意味着什么?国产大模型不仅追上来了,而且在国际市场上有了真实的生产使用。
但Token暴涨背后,有几个值得深挖的问题。
先说原因。为什么会涨这么多?
核心驱动力是两个:AI Agent的常态化运行,和多模态应用的普及。
传统的ChatGPT式对话,用户问一句、AI答一句,Token消耗是「一次性」的。但AI Agent不一样——它需要持续运行、多步推理、调用工具、维护记忆。一个Agent任务可能要跑几分钟甚至几小时,Token消耗是对话模式的几十倍甚至上百倍。
多模态应用也是类似。图像理解、视频处理,都比纯文本消耗更多Token。而且,多模态应用的用户黏性更高——因为更直观、更好用,用户用得更多,Token消耗自然水涨船高。
但Token暴涨的同时,问题也在浮出水面。
第一个问题:成本。
Token 消耗增长7-8倍,意味着算力成本也增长了7-8倍(假设单价不变)。但实际上,AI模型提供商的成本结构远比这复杂——训练成本、推理成本、带宽成本、运维成本,都在跟着涨。
而且,AI Agent 的Token消耗模式更「不可预测」。传统对话模式,用户行为相对可控;但 Agent 可能因为一个任务卡住、陷入循环、过度调用工具,导致Token消耗失控。
对AI公司来说,这意味着什么?商业化压力更大了。如果按Token收费,用户会用脚投票选择更便宜的;如果按订阅收费,重度用户会吃掉利润。怎么平衡,是个难题。
第二个问题:算力瓶颈。
Token 消耗涨了7-8倍,算力供给呢?显卡产能、数据中心建设、电力供应,这些都不是想扩就能扩的。尤其是H100这种高端GPU,产能受限,需求却持续上涨。
我看到一个数据:2026年Q1,全球AI算力需求增长了300%,但供给只增长了150%。供需缺口还在扩大。
这意味着什么?Token可能会越来越贵。而且,高峰期的服务质量可能会下降——排队、超时、降级,这些问题会越来越常见。
第三个问题:技术瓶颈。
AI Agent 的Token消耗这么高,说明什么?说明技术还不够高效。一个成熟的Agent,应该能更聪明地规划任务、更高效地调用工具、更节省地使用Token。但现在的很多Agent,还在「暴力穷举」——不知道哪条路对,就把所有路都试一遍。
这让我想起早期的搜索引擎。第一代搜索引擎是全文扫描,慢得要死;后来有了倒排索引,效率提升了几个数量级。AI Agent 可能也需要类似的「索引化」技术革新,才能把Token消耗降下来。
最后说个有点矛盾的现象:Token暴涨,既是AI繁荣的证明,也是AI不成熟的证明。
繁荣在于,AI应用确实在落地,用户确实在用。不成熟在于,我们还在用「暴力堆算力」的方式解决问题。
我个人有个判断:未来1-2年,AI行业会经历一次「效率革命」。谁能把Token消耗降下来、谁能更高效地利用算力,谁就能在成本和性能上占据优势。
这事儿没那么简单,但也没那么悲观。技术总是在问题中前进的。