算力荒逼疯AI巨头:Anthropic宕机、OpenAI限流,用户体验成了牺牲品

说实话,这事儿挺讽刺的。

一边是AI公司融资新闻刷屏——OpenAI 1220亿美元、Anthropic年化收入突破300亿美元;另一边,这些「估值神话」背后的用户,正在经历频繁的宕机、限流、响应超时。

上周我用 Claude 写代码,一下午遇到 5 次「服务暂时不可用」。切换到 GPT-4,又被告知「当前请求过于频繁,请稍后再试」。

好家伙,合着我花钱买了会员,还得排队等算力?

算力到底有多缺?

华尔街日报这周爆了个料:Anthropic 的 Claude API 在过去 90 天内,正常运行时间只有 98.95%。

听着还行?别急。软件公司通常向企业客户承诺的正常运行时间是 99.99%。这 0.04% 的差距,意味着每年有 8.7 小时 的额外宕机时间。

对于个人用户,这可能只是「刷新一下页面」的事。但对于把 AI 接入生产系统的企业来说,这是真金白银的损失。

更扎心的是,这还只是「正常运行时间」的数据,没算上响应变慢、token 被限、模型降级这些「软性故障」。

用户开始用脚投票

算力短缺不只是技术问题,正在变成商业问题。

据 The Information 报道,Anthropic 已经出现了企业客户流失的迹象。原因很简单:没人愿意为「不稳定的服务」买单。

我有个朋友在一家 SaaS 公司做技术总监,他们去年接了 Claude API 做智能客服。最近一个月,系统经常在高峰期掉链子,客服团队只能手动接管。

「我们现在在评估其他模型,」他跟我说,「虽然 Claude 能力很强,但服务稳定性才是企业采购的底线。」

OpenAI 这边也没好到哪去。为了缓解算力压力,他们开始对高频用户「悄悄限流」。有开发者发现,同样的请求,在不同时段的响应时间差异巨大——凌晨 2 点秒回,晚上 8 点转圈 30 秒。

这让我想起 2023 年初 ChatGPT 刚火那会儿,也是天天「服务器繁忙」。没想到到了 2026 年,算力问题不但没解决,反而随着用户规模扩张变得更严重了。

算力供给真的跟不上了吗?

理论上,算力供给在增加——英伟达 H100 产能拉满,AMD、英特尔也在追赶,国产芯片也在崛起。

但需求增长更快。

根据斯坦福 AI 指数报告,2026 年 Q1 全球 AI 推理请求量同比增长了 3 倍。GPT-6、Claude 4.6、Gemini 2.5 等新一代模型虽然更强,但每个请求消耗的算力也是之前的 2-3 倍。

更关键的是,训练大模型和部署推理服务,用的是同一批 GPU。

OpenAI 在训练 GPT-6,Anthropic 在训练 Claude 5,Google 在训练 Gemini 3…这些「超级模型」的训练周期动辄数月,期间要霸占几万张 GPU。

推理服务?只能「见缝插针」了。

用户能做什么?

短期来看,有几个策略:

  1. 多模型备份:别把鸡蛋放在一个篮子里。同时接入 OpenAI、Anthropic、Google 等多个模型,哪个稳定用哪个。

  2. 错峰使用:如果你的场景允许,尽量避开高峰时段(工作日晚间)。凌晨和清晨的响应速度会好很多。

  3. 降级方案:准备一个轻量级模型作为 backup。虽然能力弱一些,但至少能保证「有响应」。

  4. 自建推理:如果你的业务量够大,考虑租 GPU 自己部署开源模型(如 Llama 4、Qwen 3.6)。成本虽然高,但稳定性可控。

长期来看,这个问题只能等算力供给跟上需求,或者 AI 模型变得更高效(用更少的算力达到同样的效果)。

但至少在未来 1-2 年,算力短缺很可能成为常态。

一个值得警惕的信号

我个人的感受是,这次算力危机暴露了一个更深层的问题:AI 公司的商业模型和技术能力之间存在错配

他们能做出 GPT-6 这样的「超级模型」,但在基础设施层面,却没有做好服务数亿用户的准备。

这就像开了一家米其林餐厅,菜做得极好,但只有 5 张桌子,顾客排队排到街角,时不时还要「厨房故障暂停营业」。

产品能力再强,基础设施跟不上,用户体验就是零。

对用户来说,这也许是个提醒:在追逐「最新最强模型」的同时,别忘了评估一下服务的稳定性。

毕竟,再牛的 AI,连不上也是白搭。