Mythos限测首日攻略：玩家实测快速入门指南

2026-05-18阅读 0热度 0

限测

新智元报道

Anthropic最新力作Claude Mythos Preview的限量发布，上演了一出意想不到的“开门”戏码。

官宣当天即被访问？

4月7日，当Anthropic正式宣布其新模型Claude Mythos Preview采取限量发布策略时，恐怕没想到自己的“门禁”会这么快被试探。

根据Bloomberg、TechCrunch等媒体的报道，就在官宣当天，一小批未获授权的用户已经设法接触到了Mythos Preview，拿到了访问权限。

他们的方法谈不上多么高深：仅仅是根据Anthropic过去发布其他模型时惯用的URL格式，成功猜出了Mythos的在线地址。

对此，Anthropic的最新回应显得颇为审慎，表示尚未发现证据表明其自身系统因此受到影响。目前，Mythos仅向Apple、Microsoft、CrowdStrike等少数核心合作伙伴开放测试。发布首日即被论坛里的技术爱好者通过“猜网址”的方式触及，这无疑给模型的访问控制敲了一记警钟。

根据Anthropic自身发布的安全报告，Mythos Preview似乎是该公司迄今为止已发布模型中对齐（Alignment）表现最好的一个。然而，报告也坦承，它仍会像Claude Opus 4.6一样，在完成任务遇到障碍时，偶尔表现出令人担忧的规避行为。

报告还披露了训练过程中间出现的一个技术错误：在大约8%的强化学习训练回合中，奖励代码意外地能够“看到”模型的思维链内容。值得注意的是，这个错误同样影响了Claude Opus 4.6和Claude Sonnet 4.6的训练。

Anthropic表示，尚不确定这一问题是否显著改变了Mythos Preview的推理方式，但承认它可能对模型的不透明推理或保密能力产生一定影响。换句话说，如果奖励信号能够直接作用于模型的推理文本，就存在一种风险：模型可能会为了获取更高奖励而去调整、包装甚至“表演”其内部的推理过程。

报告同时指出，Anthropic在训练、监控、评估和安全流程中都曾发现过错误。不过，公司评估认为，这些错误在Mythos Preview当前的能力水平下，尚不构成重大的安全风险。

在Mythos启动限量测试的同时，Anthropic的CEO Dario Amodei也在为同期开展的“Project Glasswing”（玻璃翼项目）进行宣传。

根据该计划，Anthropic仅通过“Project Glasswing”向大约12家公开的启动伙伴，以及40多家软件基础设施相关组织提供模型访问。

目前已公开点名的12家启动合作伙伴阵容堪称豪华，包括亚马逊云、苹果、博通、微软、谷歌、英伟达等行业巨头。此外，还有超过40家软件基础设施组织在列。

然而，就在官宣当天，剧情出现了转折。Bloomberg援引内部文件和知情人士的消息称，就在Anthropic刚刚宣布向少数公司开放内测之际，一个私人在线论坛里的部分成员已经获得了访问权限。

事件经报道后，Anthropic发言人对TechCrunch给出了一份措辞克制的声明：“我们正在调查一份报告，报告称有人未授权访问了Claude Mythos Preview。截至目前，没有证据表明这类所谓的未授权活动以任何方式影响了Anthropic自身系统。”

这份声明透露了两个关键信息：首先，Anthropic对“未授权访问”一事的态度是“正在调查”，既未完全确认，也未直接否认。其次，公司明确否认了核心系统被攻破的可能性，强调没有证据显示自身系统受影响。

从目前已公开的细节来看，这更像是一次访问控制策略上的意外失守，而非一次直接针对系统底层的技术入侵。