上下文窗口终于不是瓶颈了:128K 之后的下一个战场

上下文窗口这个事,终于有点意思了。

上个月 Anthropic 把 Claude 4.6 的上下文窗口推到 200K tokens,Google 紧接着宣布 Gemini 2.5 Pro 支持 1M tokens。什么概念?你可以把一本 300 页的书一次性塞进去,让 AI 读完后回答问题。

但我个人的感受是:上下文长度不是终点,真正的战场在后面。

为什么这么说?

你想啊,上下文窗口从 4K → 32K → 128K → 200K → 1M,这个增长曲线是很陡的。但成本曲线也跟着涨

以 Gemini 2.5 Pro 为例:1M tokens 的输入成本是 $7,输出成本是 $21。 你塞进去一本书,光输入成本就几十块钱。这不是一般用户能承受的。

所以现在大模型厂商都在搞一个东西:记忆压缩。

什么意思?就是不把所有历史对话都塞进上下文窗口,而是把重要的信息提取出来,压缩成一个「记忆摘要」。

比如你跟 AI 聊了 100 轮对话,总共有 50K tokens。系统不会把这 50K 全塞进下一轮,而是:

  1. 提取关键信息(用户偏好、历史决策、重要上下文)
  2. 压缩成一个 2K tokens 的摘要
  3. 每次对话只带这个摘要 + 最近几轮对话

这样成本就降下来了。

但这里有个技术难点:怎么保证压缩后的「记忆摘要」不丢关键信息?

现在主流的做法是:

  • 向量检索:把历史对话转成向量,每次只检索相关的片段
  • 关键信息提取:用小模型先过滤一遍,提取重要内容
  • 分层记忆:短期记忆(最近几轮)+ 长期记忆(压缩摘要)+ 知识库(外挂)

这些技术都不是新的,但组合在一起用,效果就出来了。

举个例子:OpenAI 最近开源的 Agents SDK,里面就有一个「记忆管理器」组件。它做的就是这个事——自动压缩历史对话,保证上下文窗口不会爆掉。

说实话,我觉得这个方向比「拼上下文长度」有价值得多。因为用户真正需要的不是「能塞进去多少字」,而是「能记住多少关键信息」。

一个 200K 的上下文窗口,如果你塞进去一堆无关内容,照样没用。反过来说,一个 32K 的窗口,如果记忆管理做得好,可能比 200K 还强。

这就是技术深度的问题。

还有一个方向:检索增强生成(RAG)。

RAG 的思路是:不把所有东西都塞进上下文,而是按需检索。 你问一个问题,系统先去知识库里检索相关文档,再把检索结果塞进上下文。

这个思路现在很火,但问题是:检索质量怎么保证? 你检索出来的文档如果不相关,反而会干扰模型的判断。

所以现在有些公司在做「智能检索」——不是简单地按关键词匹配,而是理解用户的意图,再去检索。

这就要用到小模型了。先用一个小模型(比如 7B 参数)理解用户意图,生成检索策略,再用这个策略去检索。

这种「大小模型协作」的模式,我觉得是未来的方向。

最后说一点:成本优化。

上下文窗口越大,推理成本越高。这个是线性的——你输入 1M tokens,成本就是 100K 的 10 倍。

但用户的付费能力不是线性的。你不可能让用户为 1M tokens 付 10 倍的钱。

所以现在大模型厂商都在想办法降低推理成本。比如:

  • KV Cache 复用:缓存中间计算结果,减少重复计算
  • 投机解码:用小模型先猜,大模型再验证
  • 动态批处理:把多个请求合并处理,提高 GPU 利用率

这些技术看起来很底层,但对用户体验的影响是直接的——成本降下来,价格才能降下来;价格降下来,用户才能用得起。

所以我觉得,上下文长度的战争已经基本结束了(1M tokens 基本够用了),下一场战争是记忆管理和成本优化的战争。

这个方向,值得持续关注。