Claude Mythos架构开源解析：22岁天才如何融合DeepSeek思路

2026-06-24阅读 0热度 0

DeepSeek

AI领域近期迎来了一次架构层面的突破性进展。Anthropic旗下备受瞩目的Claude Mythos核心架构，其设计细节被一位22岁的初创公司CEO，通过第一性原理的严谨推导，从公开信息中完整复现。

这位名为Kye Gomez的创始人，将其复现项目——OpenMythos——进行了全面开源。这一举动迅速在技术社区引发了关于其架构精妙之处的深度探讨。

相关的技术解析帖子获得了近百万的关注，开发者们对Mythos架构的巧妙设计表示高度赞赏。

摒弃参数堆叠，实现16次「循环思考」

OpenMythos揭示的核心架构秘密是什么？根据Kye Gomez的逆向工程分析，Claude Mythos的核心并非一个参数规模更大的Transformer，而是一种名为“循环深度Transformer”的架构。

其核心思想在于，模型不再依赖堆叠参数，而是让同一套模型权重，在单次前向传播过程中，最多进行16次循环计算。

传统的模型扩展路径，类似于不断建造更高的楼层。性能不足就增加层数，导致参数规模、显存需求和训练成本急剧上升。

RDT架构则开辟了新路径：它不追求建筑高度，而是让模型在同一个计算核心上反复迭代。模型仅有一个核心计算模块，但该模块会被循环调用。每次循环都更新模型的隐藏状态，相当于完成一次更深层次的“思考”。关键在于，所有这些迭代推理都在连续的潜在空间内完成，无需像思维链那样每一步都生成文本标记。

这本质是一种迭代式的深度推理机制。

整个OpenMythos的架构可以清晰地划分为三个顺序阶段：序曲 → 循环核心 → 终章。

其中，序曲和终章是标准的Transformer层，各执行一次。真正的创新位于中间的“循环块”，它最多可循环16次。其状态更新规则可以概括为：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

公式中的e代表经过序曲编码后的原始输入。在每一步循环中，这个原始信息都会被重新注入，有效防止模型在漫长的内部迭代中偏离初始问题或发生信息遗忘。

循环机制解决了推理深度问题，那么知识广度如何实现？答案在于混合专家系统。

OpenMythos在循环核心的每个前馈网络层，都集成了MoE层，其设计借鉴了DeepSeek-MoE的思路：采用大量细粒度专家；每个输入标记仅激活其中一小部分；同时设置少量“共享专家”始终激活，以承载通用知识。

设计的精妙之处在于，随着隐藏状态h_t在循环中不断演化，路由机制在每一次循环深度上，都可能激活不同的专家子集。这意味着，尽管模型权重共享，但每一次循环所执行的计算路径可以动态变化。MoE提供了横向的知识覆盖广度，而循环机制则提供了纵向的迭代思考深度。

在注意力机制上，项目默认采用了来自DeepSeek-V2的“多潜在变量注意力”，它能将键值缓存压缩为低秩的潜在变量，在生产部署中可实现10-20倍的KV缓存显存节省。

此外，为确保循环过程的稳定性，架构中还引入了三项关键机制：LTI约束注入（强制谱半径小于1以防止状态发散）、自适应计算时间（允许模型在不同位置提前停止计算）、以及深度级LoRA适配器（让每次迭代都能进行独立的微调）。整套设计逻辑严密，工程实现精巧。

这种架构优势具有实际数据支撑。此前，Parcae团队的实验数据显示：一个仅7.7亿参数的循环模型，在同等训练数据下，其下游任务性能可匹配13亿参数的标准Transformer模型。

换言之，参数效率实现了近乎翻倍的提升。

这对行业意味着什么？首先，消费级硬件将直接受益。过去运行高性能模型需要高端专业显卡，而现在，推理深度可以通过“时间换空间”的策略实现——无需更大的显存，只需让模型进行更多次循环思考。

更深层的影响在于，它可能正在重塑AI的扩展定律。以往的竞争焦点是参数规模、算力集群和能源消耗。未来的规则可能转变为：最强的模型，未必是参数最多的，但很可能是推理最深、迭代最有效的那一个。当然，这仍需要大规模工程实践来进一步验证。

完成这项惊人复现的Kye Gomez，是Swarms公司的创始人，此前还领导过Agora Labs。他的研究聚焦于大规模多智能体系统、替代性模型架构以及多模态模型。

根据其个人主页信息，Kye Gomez在高中毕业后便直接进入了创业领域。

在2024年期间，他同时担任了三家公司的联合创始人或CEO，构建了一个以“APAC”为品牌的生态体系，业务覆盖AI深科技、媒体、食品科技等多个前沿赛道。

整个事件最引人深思的，或许并非架构本身的复杂性。而是一位22岁的创业者，仅依据公开论文和第一性原理推演，就将Anthropic保密近一年的核心技术成功复现并开源，使得社区能够通过几行代码深入探究。

这释放出一个明确信号：闭源实验室在核心架构上的领先优势，其技术壁垒可能正在快速变薄。英国《金融时报》的最新报道中，Anthropic联合创始人Dario Amodei甚至预测，中国团队可能在12个月内复刻出具备Claude Mythos能力级别的大模型。

面对外界关于大模型性能是否触及天花板的质疑，Amodei用一句富有哲理的话回应：“彩虹没有尽头，只有彩虹本身。”他强调，目前完全看不到技术发展放缓的迹象。

当核心架构设计能够被外界独立推导并复现时，真正的竞争壁垒或许将转向数据质量、工程化能力、生态系统构建以及持续创新的速度。这场由开源社区推动的“架构透明化”趋势，正在为AI的未来演进开辟新的可能性。