Anthropic Mythos模型安全漏洞发现能力深度测评
来源:环球网
【环球网科技综合报道】5月24日消息,据科技媒体engadget报道,人工智能公司Anthropic披露,其内部测试的Claude Mythos Preview模型已协助识别出超过一万个软件安全漏洞。
Anthropic近期公布了其网络安全项目“Glasswing”的初步评估数据。该项目于今年4月启动,核心是运用其尚未公开发布的Claude Mythos Preview模型,进行主动式AI网络安全威胁探测与漏洞挖掘。
项目成效显著。在首月运行中,该模型已帮助其合作企业识别出超过一万个安全漏洞。据Anthropic报告,多数合作伙伴利用该模型均在自身系统中发现了数百个被标记为“严重”或“高危”级别的安全缺陷。这一漏洞挖掘的规模与效率,凸显了AI驱动安全审计的潜在变革力。
对于为何不立即公开发布此模型,Anthropic在技术报告中给出了明确解释:当前行业的安全防护框架尚未成熟。公司指出,目前包括自身在内的任何机构,都未能建立足够强大的防护机制来有效防止此类高级模型的潜在滥用风险。其核心逻辑是,必须在部署强大工具之前,先行构建与之匹配的、稳健的安全控制体系。
基于此,Anthropic的路线图是,待开发出相匹配的、可靠的安全保障措施后,再考虑向外界发布“Mythos 级模型”。这一决策反映了其在推进AI能力边界与坚守安全治理红线之间所采取的审慎策略。
