Anthropic 发布「网络安全大模型」Claude Mythos:能自主挖洞的 AI,是双刃剑还是潘多拉魔盒

看到这个新闻的时候,我脑子里蹦出的第一个词是:潘多拉魔盒。

Anthropic 在美国时间4月7日发布了 Claude Mythos Preview,官方说法是「最强网络安全大模型」——能在没有任何人类干预的情况下,自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。

听起来很酷对吧?但细想一下,这事儿有点不对劲。

先说技术层面。Claude Mythos 的核心能力是「自主漏洞挖掘」——不是传统的代码审计工具那种基于规则扫描,而是真正理解代码逻辑、构造攻击路径、执行漏洞利用。这就好比一个黑客,不用人教,自己就能找到系统的弱点并加以利用。

Anthropic 的测试数据显示,Claude Mythos 在 CVE(Common Vulnerabilities and Exposures)基准测试中的成功率达到了 78.3%,远超之前的自动化工具(平均 30-40%)。而且,它发现的漏洞中有 15% 是之前从未被公开过的「零日漏洞」。

这技术能力确实牛。但问题是:这种能力,该不该开放给所有人?

Anthropic 的官方说法是,Claude Mythos 只提供给「经过验证的安全研究机构和企业」,而且有严格的使用限制。但熟悉 AI 行业的人都知道——模型一旦发布,几乎不可能完全控制其流向。想想 Stable Diffusion 刚出来的时候,官方也说有安全限制,结果呢?各种 unrestricted 版本很快就在网上流传开了。

更现实的问题是:如果黑客拿到了这个模型,会发生什么?

传统的漏洞挖掘需要高超的技术能力,这在某种程度上限制了攻击者的数量。但如果 AI 能自动完成大部分工作,攻击门槛会大幅降低。一个不懂代码的人,只要会用 AI,就可能成为危险的攻击者。

这让我想起之前采访一个网络安全专家时他说的话:「安全领域的军备竞赛,本质上是攻击方和防御方的不对称博弈。攻击方只要找到一个漏洞就够了,防御方要堵住所有漏洞。AI 放大了这种不对称。」

不过话说回来,Claude Mythos 对防御方也有价值。企业可以用它来主动发现自己的系统漏洞,在黑客之前打补丁。从某种意义上说,这就像把「矛」和「盾」同时交给了双方——就看谁用得更好。

但我个人有点担忧的是 Anthropic 的态度。在发布会上,Dario Amodei(Anthropic CEO)说:「我们认为 AI 在网络安全领域的应用是不可避免的,与其禁止,不如引导它朝正确的方向发展。」

这话听起来很理性,但总觉得少了点什么——比如,具体的「引导」措施是什么?模型发布后,怎么追踪它的使用情况?如果被滥用,有没有应急预案?

说实话,我支持 AI 技术的发展,但在网络安全这个敏感领域,可能需要更谨慎一点。不是说要禁止,而是要有配套的安全机制——比如模型水印、使用审计、异常行为检测等等。

最后说个有点讽刺的事实:Anthropic 一直以「AI安全公司」自居,名字里的「Anthropic」就是取自「Anthropic Principle」(人择原理),强调 AI 应该以人类为中心。但这次发布的 Claude Mythos,某种程度上放大了 AI 在安全领域的风险。

这是「双刃剑」还是「潘多拉魔盒」?可能取决于我们怎么用它。但有一点是确定的:这事儿没那么简单。