Claude Mythos架构开源解析:22岁天才如何融合DeepSeek思路
AI领域近期迎来了一次架构层面的突破性进展。Anthropic旗下备受瞩目的Claude Mythos核心架构,其设计细节被一位22岁的初创公司CEO,通过第一性原理的严谨推导,从公开信息中完整复现。
这位名为Kye Gomez的创始人,将其复现项目——OpenMythos——进行了全面开源。这一举动迅速在技术社区引发了关于其架构精妙之处的深度探讨。
相关的技术解析帖子获得了近百万的关注,开发者们对Mythos架构的巧妙设计表示高度赞赏。
摒弃参数堆叠,实现16次「循环思考」
OpenMythos揭示的核心架构秘密是什么?根据Kye Gomez的逆向工程分析,Claude Mythos的核心并非一个参数规模更大的Transformer,而是一种名为“循环深度Transformer”的架构。
其核心思想在于,模型不再依赖堆叠参数,而是让同一套模型权重,在单次前向传播过程中,最多进行16次循环计算。
传统的模型扩展路径,类似于不断建造更高的楼层。性能不足就增加层数,导致参数规模、显存需求和训练成本急剧上升。
RDT架构则开辟了新路径:它不追求建筑高度,而是让模型在同一个计算核心上反复迭代。模型仅有一个核心计算模块,但该模块会被循环调用。每次循环都更新模型的隐藏状态,相当于完成一次更深层次的“思考”。关键在于,所有这些迭代推理都在连续的潜在空间内完成,无需像思维链那样每一步都生成文本标记。
这本质是一种迭代式的深度推理机制。
架构深度解析:三段式设计框架
整个OpenMythos的架构可以清晰地划分为三个顺序阶段:序曲 → 循环核心 → 终章。
其中,序曲和终章是标准的Transformer层,各执行一次。真正的创新位于中间的“循环块”,它最多可循环16次。其状态更新规则可以概括为:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
公式中的e代表经过序曲编码后的原始输入。在每一步循环中,这个原始信息都会被重新注入,有效防止模型在漫长的内部迭代中偏离初始问题或发生信息遗忘。
MoE拓展知识广度,循环机制深化推理
循环机制解决了推理深度问题,那么知识广度如何实现?答案在于混合专家系统。
OpenMythos在循环核心的每个前馈网络层,都集成了MoE层,其设计借鉴了DeepSeek-MoE的思路:采用大量细粒度专家;每个输入标记仅激活其中一小部分;同时设置少量“共享专家”始终激活,以承载通用知识。
设计的精妙之处在于,随着隐藏状态h_t在循环中不断演化,路由机制在每一次循环深度上,都可能激活不同的专家子集。这意味着,尽管模型权重共享,但每一次循环所执行的计算路径可以动态变化。MoE提供了横向的知识覆盖广度,而循环机制则提供了纵向的迭代思考深度。
在注意力机制上,项目默认采用了来自DeepSeek-V2的“多潜在变量注意力”,它能将键值缓存压缩为低秩的潜在变量,在生产部署中可实现10-20倍的KV缓存显存节省。
此外,为确保循环过程的稳定性,架构中还引入了三项关键机制:LTI约束注入(强制谱半径小于1以防止状态发散)、自适应计算时间(允许模型在不同位置提前停止计算)、以及深度级LoRA适配器(让每次迭代都能进行独立的微调)。整套设计逻辑严密,工程实现精巧。
7.7亿参数媲美13亿,参数效率显著提升
这种架构优势具有实际数据支撑。此前,Parcae团队的实验数据显示:一个仅7.7亿参数的循环模型,在同等训练数据下,其下游任务性能可匹配13亿参数的标准Transformer模型。
换言之,参数效率实现了近乎翻倍的提升。
这对行业意味着什么?首先,消费级硬件将直接受益。过去运行高性能模型需要高端专业显卡,而现在,推理深度可以通过“时间换空间”的策略实现——无需更大的显存,只需让模型进行更多次循环思考。
更深层的影响在于,它可能正在重塑AI的扩展定律。以往的竞争焦点是参数规模、算力集群和能源消耗。未来的规则可能转变为:最强的模型,未必是参数最多的,但很可能是推理最深、迭代最有效的那一个。当然,这仍需要大规模工程实践来进一步验证。
高中毕业即投身创业的CEO
完成这项惊人复现的Kye Gomez,是Swarms公司的创始人,此前还领导过Agora Labs。他的研究聚焦于大规模多智能体系统、替代性模型架构以及多模态模型。
根据其个人主页信息,Kye Gomez在高中毕业后便直接进入了创业领域。
在2024年期间,他同时担任了三家公司的联合创始人或CEO,构建了一个以“APAC”为品牌的生态体系,业务覆盖AI深科技、媒体、食品科技等多个前沿赛道。
闭源实验室的技术护城河面临挑战
整个事件最引人深思的,或许并非架构本身的复杂性。而是一位22岁的创业者,仅依据公开论文和第一性原理推演,就将Anthropic保密近一年的核心技术成功复现并开源,使得社区能够通过几行代码深入探究。
这释放出一个明确信号:闭源实验室在核心架构上的领先优势,其技术壁垒可能正在快速变薄。英国《金融时报》的最新报道中,Anthropic联合创始人Dario Amodei甚至预测,中国团队可能在12个月内复刻出具备Claude Mythos能力级别的大模型。
面对外界关于大模型性能是否触及天花板的质疑,Amodei用一句富有哲理的话回应:“彩虹没有尽头,只有彩虹本身。”他强调,目前完全看不到技术发展放缓的迹象。
当核心架构设计能够被外界独立推导并复现时,真正的竞争壁垒或许将转向数据质量、工程化能力、生态系统构建以及持续创新的速度。这场由开源社区推动的“架构透明化”趋势,正在为AI的未来演进开辟新的可能性。
















