分布式搜索效率密码：Gensyn团队揭示AI协同进化真相

2026-06-17阅读 0热度 0

分布式

先说说这篇研究给人的第一印象。它触及了一个在AI协作领域里常被忽略，但细想之下非常关键的问题：当我们让多个AI一起工作时，到底能不能通过"多样性"本身来获得实实在在的收益？说实话，读完最终的实验数据，这种感受比直觉要强烈得多。

研究团队用了一个非常形象的比喻来引出核心直觉。想象一下，你要组建一支探险队去寻宝，有两种方案：一种是复制四个完全一样的你分头行动；另一种是找来四个背景、技能、思维方式完全不同的人。凭直觉就知道，第二种方案更可能发现那些单一视角看不见的宝藏。

这正是Gensyn团队这项研究的核心。他们研究的是一个叫做"质量多样性搜索"的问题——简单说，就是如何让计算机程序同时找到"多种类型的优秀解决方案"，而不是仅仅找到"一个最好的解"。他们的发现是：当你让不同的AI大模型分别担任搜索过程中的"变异引擎"时，整体效果远比让同一个AI模型重复运行要好得多。他们给这套框架起了个名字，叫DEI，即"进化推断中的多样性"。这项研究以预印本形式于2026年5月26日发布在arXiv平台，编号为arXiv:2605.27130v1，感兴趣的话可以直接去找来看看。

研究从一个被忽视的问题出发

要理解这项研究，先得了解一种叫做"进化算法"的计算思路。这种思路借鉴了自然界的生物进化逻辑：你先生成一批"候选方案"，从中挑出表现好的，对它们进行"变异"，生成新方案，再评估，再筛选，如此循环往复，方案质量就像生物种群一样不断提升。

在这个过程中，"变异"这一步至关重要。传统的变异操作依赖人工设计的规则，比如随机修改代码中的某些字符。但近些年，大型语言模型——也就是ChatGPT这类AI——被发现是非常有效的"创意变异器"。它们不是机械地随机改动，而是真正理解一段程序的含义，并以有意义的方式对它进行改写和扩展。

然而，每个大型语言模型都有自己独特的"思维习惯"。一个主要在Python教程上训练出来的模型，会倾向于写出特定风格的控制流逻辑；一个擅长竞赛编程的模型，会优先尝试另一类策略；一个被精细调教成"听话"的指令模型，在创作时会比原始的代码补全模型更保守。这些倾向既是特点，也意味着每个模型都有自己的"盲区"。

如果进化搜索中只用一个模型，那么这个模型的盲区就会成为最终结果里永远填不满的空白。

"核战争"：他们用来测试的那个奇特竞技场

研究团队选择了一个名为"Core War"（核心战争）的领域作为实验平台。这是一个诞生于上世纪80年代的编程竞技游戏，两个或多个用特殊汇编语言（Redcode）编写的小程序，被放进一段循环的虚拟内存中，它们相互厮杀，目标是让对方的程序崩溃，同时让自己活下来。

这个游戏里的策略极其丰富。有些程序像虫子一样不停复制自己向前推进；有些程序四处轰炸内存，专门用无效指令覆盖对方代码；有些程序像雷达一样扫描内存，一旦发现对方就精准打击；还有些程序把自己藏进坚固的"城堡"里，外面套一层防护。

这个竞技场的好处在于：输赢判定非常清晰，而且程序的"行为特征"可以被量化。研究团队使用了两个维度来描述每个程序的特点：一个是"时间空间积"，用程序的代码长度乘以它在战斗中的平均存活时间，反映程序在"占地面积"和"持久性"之间的取舍；另一个是"内存覆盖率"，指程序在战斗中究竟访问了多大比例的内存空间，反映它探索地盘的积极程度。

质量多样性：不只要最强，还要最广

传统的优化算法只追求一件事：找到最好的那一个解。但研究团队关注的是一种更丰富的目标，叫做"质量多样性搜索"。

用个比喻来说，普通优化算法像是只想找到全国最好的餐厅，而质量多样性搜索则是想绘制一张美食地图，在地图的每个角落（代表不同风格、不同价位）都找到那个地方最好的餐厅。

具体的实现方式叫做MAP-Elites算法。它把所有可能的"行为特征"空间划分成一个网格，每个格子只保存一个解——那个格子里迄今为止表现最好的解。每一轮，算法从现有的格子里取出一个解，对它进行变异，评估新解的行为特征，把它放进对应的格子。如果那个格子原本是空的，就新开一格；如果原来有解，就比较谁更优秀，优胜者留下。

衡量这种搜索质量有两个核心指标：一是"覆盖率"，即有多少比例的格子被填满了；二是"QD分数"，即所有被占用格子里的解的总适应度之和。QD分数同时奖励广度（覆盖更多格子）和深度（每个格子里的解更强）。

此外，研究团队还额外评估了一个叫做"泛化能力"的指标：取一组由真人玩家编写的Core War程序作为测试集，看搜索到的最佳程序能击败或平局其中多大比例。这个指标更接近现实应用——毕竟，一个只会打败自己同门师兄弟的程序，对外面的世界未必管用。

数字红皇后：对手越来越强的军备竞赛

在介绍DEI框架之前，还需要理解它所扩展的那个基础框架——"数字红皇后"。

红皇后这个名字来自《爱丽丝梦游仙境》里的一个意象：在红皇后的国度，你必须不停地奔跑，才能待在原地。转移到进化生物学里，这描述的是一种军备竞赛现象：捕食者必须持续进化变得更快，因为猎物也在持续进化变得更快，双方都不得不不停进步，只是为了维持相对竞争力。

数字红皇后框架把这种军备竞赛引入了MAP-Elites搜索。具体做法是：每轮结束时，把那一轮表现最好的程序（称为"冠军"）保存下来，在下一轮中把这些历届冠军作为对手。随着搜索进行，对手池越来越强，搜索压力也越来越大，推动程序持续进化，跳出局部最优。

这套框架原本只在单个节点、单个模型上运行。Gensyn的研究团队把它扩展成了一个分布式的多节点版本，而且关键在于：每个节点使用不同的大型语言模型。

DEI的核心机制：异质化的平行认知

DEI框架的工作方式可以用一场多团队寻宝比赛来理解。四个探险队分别在同一片地图上行动，每队都有自己独特的专长和直觉，他们独立探索，但每轮结束后，每个队伍会把自己本轮发现的最好宝藏的坐标广播给其他队伍。其他队伍收到这个消息后，有两件事可以做：一是把这个"外来宝藏"放进自己的宝藏库，填补自己还没去过的地方；二是把找到这个宝藏的对手当作下一轮需要超越的"对手标准"。

在DEI中，四个节点分别运行着GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2和Claude Haiku 4.5这四种不同的大型语言模型。每个节点在本地独立运行MAP-Elites搜索：10%的时间，模型直接从头生成一个全新的程序；90%的时间，模型从当前档案库中随机取出一个现有程序，生成它的改进变体。生成的新程序被放入模拟器中与对手池战斗，计算适应度，然后根据其行为特征决定进不进档案库的哪个格子。

每轮结束时，每个节点挑出本轮档案库中适应度最高的程序作为"冠军"，通过一套叫做GossipSub的异步通信协议广播给其他节点。收到其他节点冠军的节点，会把这个外来冠军加入自己的对手池（提升竞争压力），同时如果这个外来冠军占据的行为特征格子在自己档案库里是空的，就直接把它放进去（填补自己的盲区）。

这里的"异步"二字至关重要。不同的模型响应速度差异悬殊——一个运行在普通笔记本上的本地开源模型，每次调用可能需要十几秒；而一个云端的前沿模型可能不到两秒就能回复。如果要求所有节点同步等待最慢的那个，整个系统就会被拖慢。DEI采用的完全异步设计让每个节点各自以自己的速度前进，不需要等待任何人，也不设置任何同步屏障。这意味着，即使加入一个速度很慢的节点，它的贡献（发现独特行为区域的能力）依然有价值，不会拖累快节点。

从原论文中的示意图（Figure 1）可以直观地看到这一机制的效果：在早期轮次，每个节点凭借自己模型的倾向，在档案库的不同区域形成了各自独特的分布——节点1的发现集中在一片区域，节点2的发现集中在另一片，节点3和节点4各占一隅。随着异步冠军共享的进行，到了下一轮，四个节点的档案库开始彼此渗透，每个节点都获得了来自其他模型的"盲区填充"。

实验设计：控制变量，分离"多样性"与"算力"

为了确保实验结论的可靠性，研究团队做了一个关键的设计决策：保持总的LLM调用次数完全一致。

三种实验条件被对比：单节点基线（Solo DRQ）是一个节点、一个模型，每轮运行250次迭代；同质化集成（Homogeneous Ensemble）是四个节点、同一个模型，每节点每轮只运行约62次迭代，总共约248次，与单节点相当；异质化集成（Diverse Ensemble）是四个节点、四种不同模型，同样每节点约62次迭代。同质化集成针对四种模型分别跑了一遍，得到四个不同的同质化基线。

这样设计的目的，是把"更多算力带来的提升"和"模型多样性带来的提升"彻底分开。如果异质化集成的表现好于同质化集成，而两者使用的总计算量相同，那么唯一的解释就是多样性本身起了作用，而不是因为用了更多算力。

MARS模拟器的配置在所有条件下保持一致：内存大小8000条指令，每场战斗最多运行80000个周期，每对程序对战20轮，初始位置随机放置。

实验结果：数字说话

实验结果从两个层面进行了汇报。

在个体节点层面，原论文中的详细数据表（Table 2）展示了每种模型在三种条件下的"峰值泛化能力"和"生态位新颖性"两个指标。泛化能力就是前面说的，对外部真人程序的胜率。生态位新颖性则是衡量从其他节点收到的冠军中，有多大比例落在了自己档案库尚未开发的格子里——这是衡量跨节点交流有没有带来真正新颖信息的指标。

以Claude Sonnet 4.6为例：在单节点条件下，峰值泛化能力是0.775（约77.5%的真人程序被击败或平局）；在同质化集成中，这个数字上升到0.825；而在异质化集成中，进一步上升到0.850。生态位新颖性方面，同质化集成中平均有34.8%的外来冠军落入新格子，而在异质化集成中，这个比例上升到48.3%。这意味着来自不同模型的冠军，确实在填补本节点模型从未探索过的行为区域。

GPT-5.2的情况更为明显：单节点泛化能力0.650，同质化集成0.700，异质化集成0.767。同质化集成中生态位新颖性仅有9.1%，而异质化集成中达到45.4%。Claude Haiku 4.5在单节点和同质化集成之间甚至几乎没有提升（0.650对0.538，同质化集成反而更低），但在异质化集成中跃升到0.700，生态位新颖性达到44.3%，远高于同质化的13.9%。

在合并档案层面，原论文中的汇总表（Table 3）呈现了最终轮次时，将所有节点档案库合并后（保留每个格子最优解）的覆盖率和QD分数对比。单节点基线的覆盖率是63.0%，QD分数是20.46；同质化集成合并后覆盖率59.0%，QD分数29.85（覆盖率反而低于单节点，但QD分数更高，说明每个格子的解更强，但格子数更少）；异质化集成合并后覆盖率80.6%，QD分数45.90——这意味着比单节点整整高出124%的QD分数，以及28%更高的覆盖率。

原论文中的折线图（Figure 2）展示了各轮次中冠军泛化能力的变化趋势，对四种模型分别绘制了三条曲线。在所有四个子图中，异质化集成的曲线都在终点处处于最高位，同质化集成次之或接近，单节点通常最低。

原论文中的QD分数变化图（Figure 3）展示了合并档案QD分数随轮次的变化，在相同计算预算下，异质化集成和同质化集成都从第一轮起就超越了单节点，而异质化集成在最终轮次时在覆盖率上领先，同质化集成在某些中间轮次的QD分数峰值上偶尔领先。但到最后，从Table 3的最终轮结果来看，异质化集成在覆盖率和QD分数两个维度都是最优。

为什么多样性真的有效：从直觉到机制

这些数字背后的道理并不复杂，但值得深入说明。

每个大型语言模型的训练数据、架构和对齐方式不同，导致它们在生成代码时有不同的"偏好分布"。一个模型可能天然倾向于生成短小精悍、执行速度极快的攻击程序；另一个模型可能偏爱防御型的"城堡"结构；第三个可能擅长生成扫描型程序；第四个可能在某类特定指令组合上有独特技巧。

当只用一个模型时，即使重复调用很多次，它的偏好分布不会改变，它的盲区始终是盲区。当把四个不同的模型放在四个节点上并行探索时，每个模型的偏好分布互相补充，四者的联合覆盖范围远大于任何单一分布。

生态位新颖性指标直接证实了这一点：在同质化集成中，其他节点发来的冠军只有约9%到35%落在本节点的新格子里，因为大家用的是同一个模型，发现的东西自然高度重叠；在异质化集成中，这个比例跃升到43%到48%，说明来自不同模型的发现对彼此来说真的是新信息，真的在填补盲区。

这与强化学习和多智能体推理领域的一系列相关研究不谋而合。DARLING框架同时优化质量奖励和语义多样性信号，发现多样性能提升创意写作和数学竞赛任务的表现；DIVER框架在可验证奖励强化学习中加入序列级多样性内在奖励，提升了推理任务的通过率；多智能体辩论方法通过让多个大模型互相辩论来激发发散思维，解决单模型自我反思容易陷入思维退化的问题。DEI的实验结果与这些研究共同指向同一个方向：主动引入生成多样性，而不仅仅依赖随机采样，能带来可测量的探索增益。

局限与未来方向

研究团队在讨论部分相当诚实地指出了研究的边界。目前所有实验都在Core War这一个领域进行，这个领域的好处是有清晰的适应度函数和明确定义的行为特征空间。对于行为特征空间不那么结构化、或者适应度评估代价更高昂的领域，这些发现是否同样成立，还需要进一步验证。研究团队明确表示，虽然没有理论原因认为这些发现不会推广，但目前的实证结果严格说只限于Core War域内。

此外，从QD分数变化图可以看出，不同条件下都有较大的波动，说明结果存在一定的随机性。研究中可用的实验重复次数有限（异质化集成只有n=3次运行，同质化集成n=4次，单节点n=7次），更多的重复实验会进一步增强统计置信度。

研究团队还提出了几个有意思的后续探索方向。一是"自适应拓扑"——动态地连接那些档案库最互补的节点对，让信息流动更有针对性；二是"差异化行为特征轴"——让每个节点跟踪不同维度的行为特征，从而覆盖更高维度的行为空间；三是把这套框架扩展到Core War以外的多智能体协作任务。

技术实现：让不同速度的节点和谐共存

对于对技术细节感兴趣的读者，DEI的网络层实现也很值得介绍。

节点间的通信建立在一套叫做Yggdrasil的覆盖网络上，这套网络为每个节点分配一个基于公钥的稳定IPv6地址，并通过分布式生成树路由方案实现NAT穿透——这意味着即使节点在家用路由器或防火墙后面，也不需要手动配置端口转发就能参与协作。这对于分布式协作的普及性非常重要。

连接Yggdrasil网络层和DRQ应用层的是一个叫做AXL的开源工具，由Gensyn AI开发。AXL是一个Go语言编写的程序，嵌入了Yggdrasil核心，并对外暴露一个本地HTTP接口，应用程序只需与这个本地接口通信，无需直接管理网络套接字。AXL有四层架构：接受应用请求的HTTP API层，将到来的TCP消息分发给对应处理器的入站消息复用层，不需要root权限的用户空间TCP/IP协议栈（基于gVisor），以及管理节点密钥和路由的Yggdrasil核心层。

DEI只使用AXL提供的三个接口：发送消息（POST /send）、接收消息（GET /recv）、以及查询本节点身份和当前对等节点列表（GET /topology）。

实际的消息传播协议采用了GossipSub——这是一种在区块链网络（如以太坊2.0和Filecoin）中广泛使用的攻击弹性消息传播协议。GossipSub维护每个主题下D个对等节点的"网格"，并向网格成员主动推送完整消息载荷。DEI实验中使用D=3，这意味着消息在N个节点中传播的跳数是O(log N)量级——对于四个节点来说，几乎一跳就能到达所有人。网格之外，节点通过IHA VE控制消息懒惰地宣告自己有某条消息，对方如果没有，可以用IWANT请求。每秒一次的心跳触发网格修复操作，确保节点加入或离开时系统能自我调整。

归根结底，这项研究回答的问题听起来很技术，但启示却相当朴素。当你用多个拥有不同"思维习惯"的AI协同工作时，它们能覆盖彼此的盲区，找到任何单一AI都无法独立发现的解决方案——而且这种收益并不需要更多的计算资源，只需要让"多样性"真正发生。在Gensyn的实验中，四个协作的异质AI以与一个单独AI完全相同的调用次数，找到了覆盖率多出28%、综合质量得分多出124%的程序集合。这不是算力的胜利，是认知多样性的胜利。

至于这种思路能否迁移到更广泛的领域——代码生成、数学证明、药物设计，乃至更复杂的开放性问题——目前还是一个开放的问题。但Core War这个古老的编程竞技场，意外地成了一块清晰的试金石。

Q&A

Q1：DEI框架和普通的多个AI并行搜索有什么区别？

普通的并行搜索只是把同一个AI模型复制成多份同时跑，多样性只来自随机采样的运气。DEI框架则是故意选用不同家族的大模型（比如GPT系列和Claude系列同时参与），让每个模型的不同"思维习惯"覆盖彼此的盲区。实验证明，在相同的总调用次数下，用不同模型的效果比用同一模型跑多份要好得多，覆盖率高出约28%，综合质量分数高出约124%。

Q2：Core War是什么，为什么要用它来做实验？

Core War是一个1980年代发明的编程竞技游戏，玩家用一种叫Redcode的汇编语言写小程序，放进虚拟内存里互相厮杀，目标是让对方程序崩溃。研究团队选它是因为它的规则清晰、胜负判定明确，程序的行为特征可以被量化成两个数字，非常适合用来测试质量多样性搜索的效果。

Q3：DEI框架里节点之间怎么交换信息，速度慢的节点会不会拖累快节点？

节点之间通过一种叫GossipSub的协议异步传递每轮的"冠军程序"，不需要等待任何人，各自以自己的速度前进。速度慢的节点（比如本地运行的开源模型）不会拖累快节点，反而因为它有独特的发现视角，依然能为整个系统贡献来自不同分布的新信息。