Anthropic 发布「网络安全大模型」Claude Mythos：能自主挖洞的 AI，是双刃剑还是潘多拉魔盒

Anthropic, AI安全, 网络安全 — 21 4月 2026

看到这个新闻的时候，我脑子里蹦出的第一个词是：潘多拉魔盒。

Anthropic 在美国时间4月7日发布了 Claude Mythos Preview，官方说法是「最强网络安全大模型」——能在没有任何人类干预的情况下，自主发现并利用各大主流操作系统和Web浏览器中的复杂漏洞。

听起来很酷对吧？但细想一下，这事儿有点不对劲。

先说技术层面。Claude Mythos 的核心能力是「自主漏洞挖掘」——不是传统的代码审计工具那种基于规则扫描，而是真正理解代码逻辑、构造攻击路径、执行漏洞利用。这就好比一个黑客，不用人教，自己就能找到系统的弱点并加以利用。

Anthropic 的测试数据显示，Claude Mythos 在 CVE（Common Vulnerabilities and Exposures）基准测试中的成功率达到了 78.3%，远超之前的自动化工具（平均 30-40%）。而且，它发现的漏洞中有 15% 是之前从未被公开过的「零日漏洞」。

这技术能力确实牛。但问题是：这种能力，该不该开放给所有人？

Anthropic 的官方说法是，Claude Mythos 只提供给「经过验证的安全研究机构和企业」，而且有严格的使用限制。但熟悉 AI 行业的人都知道——模型一旦发布，几乎不可能完全控制其流向。想想 Stable Diffusion 刚出来的时候，官方也说有安全限制，结果呢？各种 unrestricted 版本很快就在网上流传开了。

更现实的问题是：如果黑客拿到了这个模型，会发生什么？

传统的漏洞挖掘需要高超的技术能力，这在某种程度上限制了攻击者的数量。但如果 AI 能自动完成大部分工作，攻击门槛会大幅降低。一个不懂代码的人，只要会用 AI，就可能成为危险的攻击者。

这让我想起之前采访一个网络安全专家时他说的话：「安全领域的军备竞赛，本质上是攻击方和防御方的不对称博弈。攻击方只要找到一个漏洞就够了，防御方要堵住所有漏洞。AI 放大了这种不对称。」

不过话说回来，Claude Mythos 对防御方也有价值。企业可以用它来主动发现自己的系统漏洞，在黑客之前打补丁。从某种意义上说，这就像把「矛」和「盾」同时交给了双方——就看谁用得更好。

但我个人有点担忧的是 Anthropic 的态度。在发布会上，Dario Amodei（Anthropic CEO）说：「我们认为 AI 在网络安全领域的应用是不可避免的，与其禁止，不如引导它朝正确的方向发展。」

这话听起来很理性，但总觉得少了点什么——比如，具体的「引导」措施是什么？模型发布后，怎么追踪它的使用情况？如果被滥用，有没有应急预案？

说实话，我支持 AI 技术的发展，但在网络安全这个敏感领域，可能需要更谨慎一点。不是说要禁止，而是要有配套的安全机制——比如模型水印、使用审计、异常行为检测等等。

最后说个有点讽刺的事实：Anthropic 一直以「AI安全公司」自居，名字里的「Anthropic」就是取自「Anthropic Principle」（人择原理），强调 AI 应该以人类为中心。但这次发布的 Claude Mythos，某种程度上放大了 AI 在安全领域的风险。

这是「双刃剑」还是「潘多拉魔盒」？可能取决于我们怎么用它。但有一点是确定的：这事儿没那么简单。

2026年AI战国时代：谁在「造神」，谁在「守夜」，谁在「缝补」

「硅基员工」引爆智能体攻防：从被动响应到自主防御

OpenAI和Anthropic突然达成共识：2026年，「能力溢出」比「模型更强」更重要

相关推荐