Anthropic Mythos进白宫:AI安全是真诚意还是做姿态?

Anthropic最近的动作有点大。

他们最强的模型Mythos,正在申请进入美国联邦机构的准入名单。但前提是,得先把网络安全防护措施搭建到位。白宫OMB在给各部门的邮件里明确说了:这事儿不急,安全先搞好。

听起来很合理对吧?政府部门用AI,当然要谨慎。但我仔细看了新闻稿,发现了一个耐人寻味的细节。

Mythos迄今仅向少数科技公司、研究机构开放。也就是说,在没进白宫之前,它已经在民间流通了。那现在的安全审查,到底是在防什么?是防模型本身的风险,还是在走一个官方认证的流程?

作为一个对AI安全事件媒体叙事高度警惕的人,我得说这件事的公关味道有点浓。

先给不了解背景的同学科普一下。Mythos是Anthropic去年发布的安全导向型大模型,主打对齐和可控。它的训练过程中加入了很多安全约束,理论上更难被诱导生成有害内容。但更难不代表不可能,任何大模型都有被攻破的可能。

美国政府担心的是什么?主要是两点:一是模型被用来放大网络攻击,二是模型本身成为攻击目标。

第一点其实有点搞笑。你要说AI能帮脚本小子写点恶意代码,那是真的。但真正的国家级网络攻击,用的都是0day漏洞、供应链投毒这些高级手法,大模型根本帮不上忙。把网络安全风险归咎于AI,有点像把枪击案归咎于枪,技术本身是中性的,问题在于使用者的意图。

第二点倒是确实值得关注。联邦机构如果接入Mythos,必然会输入大量内部数据。这些数据会不会被Anthropic收集?模型会不会记住敏感信息然后在其他地方泄露?虽然Anthropic承诺不会用政府数据训练模型,但承诺这玩意儿,在技术层面怎么验证?

我更好奇的是审批流程本身。

OMB说正在设置保护措施,但没有透露具体标准是什么。谁来评估Mythos的安全性?用的是什么测试集?有没有第三方独立审计?这些问题都没有答案。

这让我想起去年欧盟AI Act的争论。大家吵来吵去,最后发现最难的不是定标准,而是执行标准。你说一个模型安全,怎么证明?用红队测试?用形式化验证?还是让审计员坐那儿跟模型聊三天?

对于Anthropic来说,进白宫是一步好棋。官方认证等于金字招牌,以后跟企业客户谈单子,又多了一个卖点。但对于整个行业来说,这件事可能树立了一个不太好的先例,政府开始扮演AI安全守门人的角色。

我不是说监管不重要。但监管一旦开始,往往就会膨胀。今天审模型,明天可能就要审训练数据、审算力来源、审开发者的政治立场。到那时候,AI创新会不会被 bureaucratic 流程拖死?

当然,这些只是我的个人猜测。也许白宫真的只是想确保安全第一,没有别的想法。

不过话说回来,如果Mythos真的通过了审查,那它就成了第一个政府认证的大模型。这对OpenAI、Google来说,压力可不小。毕竟,谁也不想被竞争对手抢了这个官方背书的头筹。

这场AI安全的博弈,表面看是技术问题,实际上全是政治和商业的算计。