4月7日,Anthropic发布新一代AI模型Mythos,宣称在网络安全测试中发现了数千个零日漏洞。
不到一周,质疑声四起。
声称:发现数千零日漏洞
Anthropic在发布稿中称,Mythos在测试中发现并报告了数千个软件漏洞,其中不少是"零日漏洞"(即软件厂商尚未知晓的安全漏洞)。
公司CEO达里奥·阿莫迪表示,这是AI在网络安全领域的重大突破,Mythos的能力"远超人类安全研究员"。
消息一出,科技圈震动。如果属实,这意味着AI在安全领域的应用将迈入新阶段。
质疑:数据存在夸大
然而,多家第三方安全研究机构对Anthropic的数据提出质疑。
网络安全公司Trail of Bits的首席研究员指出:"我们复现了Anthropic的测试流程,发现Mythos报告的'漏洞'中,超过60%是误报——要么是已知问题,要么根本不是真正的安全漏洞。"
另一家安全公司NCC Group的报告更为直接:"真正的新零日漏洞数量,可能只有Anthropic宣称的十分之一。"
争议焦点:什么是'发现'
争议的焦点在于"发现"的定义。
Anthropic将"模型识别出潜在安全问题"都计入了"发现漏洞"的范畴,包括一些模糊代码、不规范写法等。
而安全行业的标准更为严格:只有经过验证、确实可被利用的安全缺陷,才能算作"漏洞发现"。
这种统计口径的差异,导致了数据上的巨大分歧。
Anthropic回应:承认表述不够严谨
面对质疑,Anthropic在4月12日发布澄清声明,承认"在最初的发布材料中,对'漏洞发现'的定义表述不够严谨"。
公司表示,将重新整理数据,区分"潜在问题识别"和"经验证的漏洞",并在本周内公布详细报告。
同时,Anthropic强调,即使按照严格标准统计,Mythos发现的真实漏洞数量仍然"显著高于人类研究员的平均水平"。
行业反思:AI安全测试需要新标准
这场争议暴露了一个问题:AI在安全领域的应用,缺乏统一的评估标准。
传统的人类安全研究员,有一套成熟的漏洞验证流程。AI模型虽然速度快、覆盖面广,但其输出的可靠性如何评估,目前尚无定论。
业界呼吁,需要建立针对AI安全测试的标准化评估体系,明确"发现"的定义、验证的流程、报告的规范。
写在最后
Mythos的能力究竟如何,还需要更多第三方验证。
但这场争议至少说明一点:AI在网络安全领域的应用,已经从"能不能做"走向"做得好不好"的阶段。
对于普通用户,暂时不必过于担心。AI安全工具的普及,还需要时间。真正需要关注的,是那些已经被证实、但尚未修复的漏洞。