Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路

2026-04-27阅读 686热度 686
DeepSeek

不堆参数,循环思考16次的架构革命

Anthropic严防死守的Claude Mythos核心架构,被一位22岁的初创公司CEO通过第一性原理成功推导并开源。

这并非内部泄露或员工跳槽所致。

创始人Kye Gomez凭借对基础原理的深刻理解,从零开始逆向工程了Mythos的核心设计。

最关键的是,他将这个名为OpenMythos的项目完全开源了

他的复现分析在社区引发震动,吸引了近百万关注。业内人士开始重新审视Mythos底层设计的精妙之处。

核心结论是什么?Kye Gomez的推导揭示,Claude Mythos并非一个更大的Transformer,其核心是一种称为「循环深度Transformer」(Recurrent-Depth Transformer, RDT)的创新架构

简言之,该架构让同一套模型权重,在单次前向传播中循环执行最多16次。

传统大模型扩展依赖堆叠参数层数,如同不断加盖高楼。层数越多,模型越庞大,对显存和算力的需求呈指数级攀升。

RDT架构则转向了“原地深度计算”的思路。模型仅有一个核心计算模块,但该模块被反复迭代执行。每次循环都更新模型的隐藏状态,相当于完成一次更深层次的内部推理。整个过程在连续的潜在空间中进行,无需像思维链那样输出每一步的中间文本。

这是一种高效的迭代式深度推理机制。

架构深度解析:三段式设计逻辑

OpenMythos的架构清晰分为三段:Prelude(序曲)→ Recurrent Block(循环核心)→ Coda(终章)

Prelude和Coda是标准的Transformer层,各执行一次。真正的计算核心是中间的「循环块」,它最多可循环16次。其状态更新规则可表述为:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是经过Prelude编码的原始输入。每一步循环都重新注入原始输入,这一设计至关重要,它能有效防止模型在多次迭代后偏离原始上下文。

MoE扩展广度,循环机制赋予深度

循环机制解释了模型推理的“深度”,但“广度”则需另寻他法。OpenMythos在循环核心的每个前馈网络层,都集成了混合专家系统,其设计借鉴了DeepSeek-MoE的思路:

采用大量细粒度路由专家;每个输入标记仅激活一小部分专家;同时设置少量“共享专家”持续激活,以捕获跨领域通用知识。

最精妙之处在于,随着隐藏状态h_t在循环中演化,路由器在每一层、每一次循环深度上,都可能动态选择不同的专家子集。这意味着,尽管模型权重共享,但每次循环的计算路径可以完全不同。总结来说:MoE机制提供了知识覆盖的广度,循环机制则赋予了思考迭代的深度

项目地址:https://github.com/kyegomez/OpenMythos

注意力机制默认采用来自DeepSeek-V2的「多潜变量注意力」。该技术将键值缓存压缩为低秩潜在变量,在生产规模下,据称可实现10-20倍的KV缓存显存节省。

此外,还有三个额外机制确保循环稳定性:LTI约束注入(强制谱半径小于1)、自适应计算时间实现逐位置“停机”、以及深度级LoRA适配器为每次迭代提供独立的行为微调能力。整套设计精密而高效。

770M参数媲美1.3B,参数效率翻倍

这种架构优势具有实证支持。此前Parcae团队的实验数据显示:一个仅770M参数的循环模型,在同等训练数据下,能达到1.3B参数标准Transformer的下游任务性能。

换言之——用大约一半的参数,实现了同等级别的模型能力

这对行业意味着什么?对消费级硬件是重大利好。过去运行高性能大模型需要A100级别的显卡,现在,推理深度可以通过计算时间换取显存空间——无需更大显存,只需让模型进行更多轮次的“思考”。

更深层的影响在于,它可能正在改写AI领域的扩展定律。过去的竞争逻辑是比拼参数规模、GPU集群和算力预算。而新的规则正在浮现:未来最强的模型,可能不是参数最多的,而是能够进行最深入、最多次迭代推理的那一个。

当然,这目前更多是基于理论推演和早期实验的观察,其大规模应用的实际成效仍需进一步验证。

高中毕业即创业的AI新锐

这位揭开Claude Mythos面纱的22岁年轻人Kye Gomez,是Swarms公司创始人,此前还领导过Agora Labs。他的研究聚焦于大规模多智能体系统、替代性模型架构及多模态模型。

根据其个人主页信息,Kye Gomez高中毕业后便直接投身创业。

2021年至2024年间,他同时担任三家公司的联合创始人或CEO,并构建了以「APAC」为品牌的生态体系,业务覆盖AI深科技、媒体、食品科技等多个前沿领域。

22岁创业者开源Anthropic核心模型架构

整件事最令人震撼的,或许并非架构本身。

而在于,一位22岁的创业者,仅凭公开论文和第一性原理推导,就成功复现了Anthropic雪藏近一年的核心技术,并选择全面开源,让任何人通过几行代码即可尝试运行。

这释放了一个明确信号:闭源实验室在核心架构上的优势窗口期正在迅速收窄。

英国《金融时报》最新报道中,Anthropic联合创始人Dario Amodei预测:中国将在12个月内,完全复现出具备Claude Mythos级别能力的大模型。

针对大语言模型性能是否触及天花板的质疑,Amodei用一句富有诗意的话回应:“彩虹没有尽头,只有彩虹本身。”他强调,目前完全看不到技术发展放缓的迹象。

当个人仅凭公开信息就能重建核心技术时,真正的护城河便不再仅仅是架构本身。未来的竞争,将更多转向数据质量、工程实现、生态构建与应用落地。开源与开放的浪潮,正在深刻重塑AI领域的创新格局与竞争逻辑。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策