Claude Mythos核心架构开源，22岁天才一人破解，融合DeepSeek思路

2026-04-27阅读 686热度 686

DeepSeek

不堆参数，循环思考16次的架构革命

Anthropic严防死守的Claude Mythos核心架构，被一位22岁的初创公司CEO通过第一性原理成功推导并开源。

这并非内部泄露或员工跳槽所致。

创始人Kye Gomez凭借对基础原理的深刻理解，从零开始逆向工程了Mythos的核心设计。

最关键的是，他将这个名为OpenMythos的项目完全开源了。

他的复现分析在社区引发震动，吸引了近百万关注。业内人士开始重新审视Mythos底层设计的精妙之处。

核心结论是什么？Kye Gomez的推导揭示，Claude Mythos并非一个更大的Transformer，其核心是一种称为「循环深度Transformer」（Recurrent-Depth Transformer, RDT）的创新架构。

简言之，该架构让同一套模型权重，在单次前向传播中循环执行最多16次。

传统大模型扩展依赖堆叠参数层数，如同不断加盖高楼。层数越多，模型越庞大，对显存和算力的需求呈指数级攀升。

RDT架构则转向了“原地深度计算”的思路。模型仅有一个核心计算模块，但该模块被反复迭代执行。每次循环都更新模型的隐藏状态，相当于完成一次更深层次的内部推理。整个过程在连续的潜在空间中进行，无需像思维链那样输出每一步的中间文本。

这是一种高效的迭代式深度推理机制。

架构深度解析：三段式设计逻辑

OpenMythos的架构清晰分为三段：Prelude（序曲）→ Recurrent Block（循环核心）→ Coda（终章）。

Prelude和Coda是标准的Transformer层，各执行一次。真正的计算核心是中间的「循环块」，它最多可循环16次。其状态更新规则可表述为：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是经过Prelude编码的原始输入。每一步循环都重新注入原始输入，这一设计至关重要，它能有效防止模型在多次迭代后偏离原始上下文。

MoE扩展广度，循环机制赋予深度

循环机制解释了模型推理的“深度”，但“广度”则需另寻他法。OpenMythos在循环核心的每个前馈网络层，都集成了混合专家系统，其设计借鉴了DeepSeek-MoE的思路：

采用大量细粒度路由专家；每个输入标记仅激活一小部分专家；同时设置少量“共享专家”持续激活，以捕获跨领域通用知识。

最精妙之处在于，随着隐藏状态h_t在循环中演化，路由器在每一层、每一次循环深度上，都可能动态选择不同的专家子集。这意味着，尽管模型权重共享，但每次循环的计算路径可以完全不同。总结来说：MoE机制提供了知识覆盖的广度，循环机制则赋予了思考迭代的深度。

项目地址：https://github.com/kyegomez/OpenMythos

注意力机制默认采用来自DeepSeek-V2的「多潜变量注意力」。该技术将键值缓存压缩为低秩潜在变量，在生产规模下，据称可实现10-20倍的KV缓存显存节省。

此外，还有三个额外机制确保循环稳定性：LTI约束注入（强制谱半径小于1）、自适应计算时间实现逐位置“停机”、以及深度级LoRA适配器为每次迭代提供独立的行为微调能力。整套设计精密而高效。

770M参数媲美1.3B，参数效率翻倍

这种架构优势具有实证支持。此前Parcae团队的实验数据显示：一个仅770M参数的循环模型，在同等训练数据下，能达到1.3B参数标准Transformer的下游任务性能。

换言之——用大约一半的参数，实现了同等级别的模型能力。

这对行业意味着什么？对消费级硬件是重大利好。过去运行高性能大模型需要A100级别的显卡，现在，推理深度可以通过计算时间换取显存空间——无需更大显存，只需让模型进行更多轮次的“思考”。

更深层的影响在于，它可能正在改写AI领域的扩展定律。过去的竞争逻辑是比拼参数规模、GPU集群和算力预算。而新的规则正在浮现：未来最强的模型，可能不是参数最多的，而是能够进行最深入、最多次迭代推理的那一个。

当然，这目前更多是基于理论推演和早期实验的观察，其大规模应用的实际成效仍需进一步验证。

高中毕业即创业的AI新锐

这位揭开Claude Mythos面纱的22岁年轻人Kye Gomez，是Swarms公司创始人，此前还领导过Agora Labs。他的研究聚焦于大规模多智能体系统、替代性模型架构及多模态模型。

根据其个人主页信息，Kye Gomez高中毕业后便直接投身创业。

2021年至2024年间，他同时担任三家公司的联合创始人或CEO，并构建了以「APAC」为品牌的生态体系，业务覆盖AI深科技、媒体、食品科技等多个前沿领域。

22岁创业者开源Anthropic核心模型架构

整件事最令人震撼的，或许并非架构本身。

而在于，一位22岁的创业者，仅凭公开论文和第一性原理推导，就成功复现了Anthropic雪藏近一年的核心技术，并选择全面开源，让任何人通过几行代码即可尝试运行。

这释放了一个明确信号：闭源实验室在核心架构上的优势窗口期正在迅速收窄。

英国《金融时报》最新报道中，Anthropic联合创始人Dario Amodei预测：中国将在12个月内，完全复现出具备Claude Mythos级别能力的大模型。

针对大语言模型性能是否触及天花板的质疑，Amodei用一句富有诗意的话回应：“彩虹没有尽头，只有彩虹本身。”他强调，目前完全看不到技术发展放缓的迹象。

当个人仅凭公开信息就能重建核心技术时，真正的护城河便不再仅仅是架构本身。未来的竞争，将更多转向数据质量、工程实现、生态构建与应用落地。开源与开放的浪潮，正在深刻重塑AI领域的创新格局与竞争逻辑。