Token消耗暴涨7倍:AI Agent这波有点「疯」
有个数据刚出来的时候,我以为是统计口径搞错了。
全球最大API聚合平台OpenRouter的数据显示:2026年4月的周度累计Token消耗量,比一年前提升了7-8倍。注意,是7到8倍,不是70%或者80%。
这什么概念?相当于整个AI产业的「油耗」在12个月里翻了将近三番。我查了一下,这个增长主要来自两个引擎:AI Agent的常态化运行,以及多模态应用的普及。
先说AI Agent。
Agent跟传统ChatBot最大的区别是:ChatBot是「你问我答」,Agent是「你给目标,我自主执行」。后者需要的Token量是前者的几十倍甚至上百倍。举个例子,你要Agent帮你「订一张从深圳到北京的机票」,它需要拆解任务(查航班→比价→选座→下单→确认),每一步都要调用API、读取返回结果、决策下一步。这一套流程跑下来,Token消耗轻松破万。
我上周自己测试了一个Agent工作流,让它帮我整理一周的技术文档。总共不到30篇文章,结果跑完一看后台——消耗了120万Token。我当时就愣住了,这要是按市价算,光API成本就快赶上我一天的收入了。
再说多模态。
图片和视频的Token消耗量远超文本。一张1024x1024的图片,转成Token大概是2000-3000个(取决于编码方式);一段10秒的720p视频,Token量可能达到几万甚至十几万。随着多模态应用越来越多(比如AI生成视频、图像分析、音频转写),Token消耗自然水涨船高。
有意思的是,国产大模型在这个增长里扮演了关键角色。
OpenRouter的数据显示,国产大模型的最新市占率已经达到40%。这意味着什么?意味着中国企业在AI应用层正在快速追赶甚至超越海外对手。原因不难理解:国产模型的API价格普遍更低(有些甚至只有GPT的十分之一),而且对中文场景的支持更好。
但我有点担忧。
Token消耗量的暴涨,背后是算力需求的指数级增长。现在GPU资源已经够紧张了,如果Agent和多模态继续按这个速度扩张,会不会出现「算力荒」?我前几天跟几个做AI基础设施的朋友聊,他们都说今年的GPU租赁价格已经涨了30%以上,而且经常订不到货。
这事儿对企业来说意味着什么?
如果你的业务重度依赖AI,现在必须考虑两件事:一是优化Token使用效率(比如用更小的模型、减少不必要的调用),二是提前锁定算力资源(不然等到要用的时候发现租不到,那就尴尬了)。
我个人的判断是:Token经济学会成为AI公司的核心竞争力之一。谁能用更少的Token完成同样的任务,谁就能在价格战中活下来。这事儿跟当年的云计算有点像——一开始大家都觉得「云资源无限」,后来发现账单一出来,还是得精打细算。
对了,还有个细节值得注意。
国家统计局的数据显示,截至2026年3月,中国日均Token调用量已突破140万亿。这个数字一年前是多少?大约1000亿。两年时间,千倍增长。这不是「爆发」,这是「核爆」。
未来会怎样?我猜会有更多公司开始做「Token优化服务」——帮你压缩Prompt、选择合适的模型、智能缓存常用结果。毕竟,在Token暴涨的时代,省钱就是赚钱。