分布式搜索效率密码:Gensyn团队揭示AI协同进化真相
先说说这篇研究给人的第一印象。它触及了一个在AI协作领域里常被忽略,但细想之下非常关键的问题:当我们让多个AI一起工作时,到底能不能通过"多样性"本身来获得实实在在的收益?说实话,读完最终的实验数据,这种感受比直觉要强烈得多。
研究团队用了一个非常形象的比喻来引出核心直觉。想象一下,你要组建一支探险队去寻宝,有两种方案:一种是复制四个完全一样的你分头行动;另一种是找来四个背景、技能、思维方式完全不同的人。凭直觉就知道,第二种方案更可能发现那些单一视角看不见的宝藏。
这正是Gensyn团队这项研究的核心。他们研究的是一个叫做"质量多样性搜索"的问题——简单说,就是如何让计算机程序同时找到"多种类型的优秀解决方案",而不是仅仅找到"一个最好的解"。他们的发现是:当你让不同的AI大模型分别担任搜索过程中的"变异引擎"时,整体效果远比让同一个AI模型重复运行要好得多。他们给这套框架起了个名字,叫DEI,即"进化推断中的多样性"。这项研究以预印本形式于2026年5月26日发布在arXiv平台,编号为arXiv:2605.27130v1,感兴趣的话可以直接去找来看看。
研究从一个被忽视的问题出发
要理解这项研究,先得了解一种叫做"进化算法"的计算思路。这种思路借鉴了自然界的生物进化逻辑:你先生成一批"候选方案",从中挑出表现好的,对它们进行"变异",生成新方案,再评估,再筛选,如此循环往复,方案质量就像生物种群一样不断提升。
在这个过程中,"变异"这一步至关重要。传统的变异操作依赖人工设计的规则,比如随机修改代码中的某些字符。但近些年,大型语言模型——也就是ChatGPT这类AI——被发现是非常有效的"创意变异器"。它们不是机械地随机改动,而是真正理解一段程序的含义,并以有意义的方式对它进行改写和扩展。
然而,每个大型语言模型都有自己独特的"思维习惯"。一个主要在Python教程上训练出来的模型,会倾向于写出特定风格的控制流逻辑;一个擅长竞赛编程的模型,会优先尝试另一类策略;一个被精细调教成"听话"的指令模型,在创作时会比原始的代码补全模型更保守。这些倾向既是特点,也意味着每个模型都有自己的"盲区"。
如果进化搜索中只用一个模型,那么这个模型的盲区就会成为最终结果里永远填不满的空白。
"核战争":他们用来测试的那个奇特竞技场
研究团队选择了一个名为"Core War"(核心战争)的领域作为实验平台。这是一个诞生于上世纪80年代的编程竞技游戏,两个或多个用特殊汇编语言(Redcode)编写的小程序,被放进一段循环的虚拟内存中,它们相互厮杀,目标是让对方的程序崩溃,同时让自己活下来。
这个游戏里的策略极其丰富。有些程序像虫子一样不停复制自己向前推进;有些程序四处轰炸内存,专门用无效指令覆盖对方代码;有些程序像雷达一样扫描内存,一旦发现对方就精准打击;还有些程序把自己藏进坚固的"城堡"里,外面套一层防护。
这个竞技场的好处在于:输赢判定非常清晰,而且程序的"行为特征"可以被量化。研究团队使用了两个维度来描述每个程序的特点:一个是"时间空间积",用程序的代码长度乘以它在战斗中的平均存活时间,反映程序在"占地面积"和"持久性"之间的取舍;另一个是"内存覆盖率",指程序在战斗中究竟访问了多大比例的内存空间,反映它探索地盘的积极程度。
质量多样性:不只要最强,还要最广
传统的优化算法只追求一件事:找到最好的那一个解。但研究团队关注的是一种更丰富的目标,叫做"质量多样性搜索"。
用个比喻来说,普通优化算法像是只想找到全国最好的餐厅,而质量多样性搜索则是想绘制一张美食地图,在地图的每个角落(代表不同风格、不同价位)都找到那个地方最好的餐厅。
具体的实现方式叫做MAP-Elites算法。它把所有可能的"行为特征"空间划分成一个网格,每个格子只保存一个解——那个格子里迄今为止表现最好的解。每一轮,算法从现有的格子里取出一个解,对它进行变异,评估新解的行为特征,把它放进对应的格子。如果那个格子原本是空的,就新开一格;如果原来有解,就比较谁更优秀,优胜者留下。
衡量这种搜索质量有两个核心指标:一是"覆盖率",即有多少比例的格子被填满了;二是"QD分数",即所有被占用格子里的解的总适应度之和。QD分数同时奖励广度(覆盖更多格子)和深度(每个格子里的解更强)。
此外,研究团队还额外评估了一个叫做"泛化能力"的指标:取一组由真人玩家编写的Core War程序作为测试集,看搜索到的最佳程序能击败或平局其中多大比例。这个指标更接近现实应用——毕竟,一个只会打败自己同门师兄弟的程序,对外面的世界未必管用。
数字红皇后:对手越来越强的军备竞赛
在介绍DEI框架之前,还需要理解它所扩展的那个基础框架——"数字红皇后"。
红皇后这个名字来自《爱丽丝梦游仙境》里的一个意象:在红皇后的国度,你必须不停地奔跑,才能待在原地。转移到进化生物学里,这描述的是一种军备竞赛现象:捕食者必须持续进化变得更快,因为猎物也在持续进化变得更快,双方都不得不不停进步,只是为了维持相对竞争力。
数字红皇后框架把这种军备竞赛引入了MAP-Elites搜索。具体做法是:每轮结束时,把那一轮表现最好的程序(称为"冠军")保存下来,在下一轮中把这些历届冠军作为对手。随着搜索进行,对手池越来越强,搜索压力也越来越大,推动程序持续进化,跳出局部最优。
这套框架原本只在单个节点、单个模型上运行。Gensyn的研究团队把它扩展成了一个分布式的多节点版本,而且关键在于:每个节点使用不同的大型语言模型。
DEI的核心机制:异质化的平行认知
DEI框架的工作方式可以用一场多团队寻宝比赛来理解。四个探险队分别在同一片地图上行动,每队都有自己独特的专长和直觉,他们独立探索,但每轮结束后,每个队伍会把自己本轮发现的最好宝藏的坐标广播给其他队伍。其他队伍收到这个消息后,有两件事可以做:一是把这个"外来宝藏"放进自己的宝藏库,填补自己还没去过的地方;二是把找到这个宝藏的对手当作下一轮需要超越的"对手标准"。
在DEI中,四个节点分别运行着GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2和Claude Haiku 4.5这四种不同的大型语言模型。每个节点在本地独立运行MAP-Elites搜索:10%的时间,模型直接从头生成一个全新的程序;90%的时间,模型从当前档案库中随机取出一个现有程序,生成它的改进变体。生成的新程序被放入模拟器中与对手池战斗,计算适应度,然后根据其行为特征决定进不进档案库的哪个格子。
每轮结束时,每个节点挑出本轮档案库中适应度最高的程序作为"冠军",通过一套叫做GossipSub的异步通信协议广播给其他节点。收到其他节点冠军的节点,会把这个外来冠军加入自己的对手池(提升竞争压力),同时如果这个外来冠军占据的行为特征格子在自己档案库里是空的,就直接把它放进去(填补自己的盲区)。
这里的"异步"二字至关重要。不同的模型响应速度差异悬殊——一个运行在普通笔记本上的本地开源模型,每次调用可能需要十几秒;而一个云端的前沿模型可能不到两秒就能回复。如果要求所有节点同步等待最慢的那个,整个系统就会被拖慢。DEI采用的完全异步设计让每个节点各自以自己的速度前进,不需要等待任何人,也不设置任何同步屏障。这意味着,即使加入一个速度很慢的节点,它的贡献(发现独特行为区域的能力)依然有价值,不会拖累快节点。
从原论文中的示意图(Figure 1)可以直观地看到这一机制的效果:在早期轮次,每个节点凭借自己模型的倾向,在档案库的不同区域形成了各自独特的分布——节点1的发现集中在一片区域,节点2的发现集中在另一片,节点3和节点4各占一隅。随着异步冠军共享的进行,到了下一轮,四个节点的档案库开始彼此渗透,每个节点都获得了来自其他模型的"盲区填充"。
实验设计:控制变量,分离"多样性"与"算力"
为了确保实验结论的可靠性,研究团队做了一个关键的设计决策:保持总的LLM调用次数完全一致。
三种实验条件被对比:单节点基线(Solo DRQ)是一个节点、一个模型,每轮运行250次迭代;同质化集成(Homogeneous Ensemble)是四个节点、同一个模型,每节点每轮只运行约62次迭代,总共约248次,与单节点相当;异质化集成(Diverse Ensemble)是四个节点、四种不同模型,同样每节点约62次迭代。同质化集成针对四种模型分别跑了一遍,得到四个不同的同质化基线。
这样设计的目的,是把"更多算力带来的提升"和"模型多样性带来的提升"彻底分开。如果异质化集成的表现好于同质化集成,而两者使用的总计算量相同,那么唯一的解释就是多样性本身起了作用,而不是因为用了更多算力。
MARS模拟器的配置在所有条件下保持一致:内存大小8000条指令,每场战斗最多运行80000个周期,每对程序对战20轮,初始位置随机放置。
实验结果:数字说话
实验结果从两个层面进行了汇报。
在个体节点层面,原论文中的详细数据表(Table 2)展示了每种模型在三种条件下的"峰值泛化能力"和"生态位新颖性"两个指标。泛化能力就是前面说的,对外部真人程序的胜率。生态位新颖性则是衡量从其他节点收到的冠军中,有多大比例落在了自己档案库尚未开发的格子里——这是衡量跨节点交流有没有带来真正新颖信息的指标。
以Claude Sonnet 4.6为例:在单节点条件下,峰值泛化能力是0.775(约77.5%的真人程序被击败或平局);在同质化集成中,这个数字上升到0.825;而在异质化集成中,进一步上升到0.850。生态位新颖性方面,同质化集成中平均有34.8%的外来冠军落入新格子,而在异质化集成中,这个比例上升到48.3%。这意味着来自不同模型的冠军,确实在填补本节点模型从未探索过的行为区域。
GPT-5.2的情况更为明显:单节点泛化能力0.650,同质化集成0.700,异质化集成0.767。同质化集成中生态位新颖性仅有9.1%,而异质化集成中达到45.4%。Claude Haiku 4.5在单节点和同质化集成之间甚至几乎没有提升(0.650对0.538,同质化集成反而更低),但在异质化集成中跃升到0.700,生态位新颖性达到44.3%,远高于同质化的13.9%。
在合并档案层面,原论文中的汇总表(Table 3)呈现了最终轮次时,将所有节点档案库合并后(保留每个格子最优解)的覆盖率和QD分数对比。单节点基线的覆盖率是63.0%,QD分数是20.46;同质化集成合并后覆盖率59.0%,QD分数29.85(覆盖率反而低于单节点,但QD分数更高,说明每个格子的解更强,但格子数更少);异质化集成合并后覆盖率80.6%,QD分数45.90——这意味着比单节点整整高出124%的QD分数,以及28%更高的覆盖率。
原论文中的折线图(Figure 2)展示了各轮次中冠军泛化能力的变化趋势,对四种模型分别绘制了三条曲线。在所有四个子图中,异质化集成的曲线都在终点处处于最高位,同质化集成次之或接近,单节点通常最低。
原论文中的QD分数变化图(Figure 3)展示了合并档案QD分数随轮次的变化,在相同计算预算下,异质化集成和同质化集成都从第一轮起就超越了单节点,而异质化集成在最终轮次时在覆盖率上领先,同质化集成在某些中间轮次的QD分数峰值上偶尔领先。但到最后,从Table 3的最终轮结果来看,异质化集成在覆盖率和QD分数两个维度都是最优。
为什么多样性真的有效:从直觉到机制
这些数字背后的道理并不复杂,但值得深入说明。
每个大型语言模型的训练数据、架构和对齐方式不同,导致它们在生成代码时有不同的"偏好分布"。一个模型可能天然倾向于生成短小精悍、执行速度极快的攻击程序;另一个模型可能偏爱防御型的"城堡"结构;第三个可能擅长生成扫描型程序;第四个可能在某类特定指令组合上有独特技巧。
当只用一个模型时,即使重复调用很多次,它的偏好分布不会改变,它的盲区始终是盲区。当把四个不同的模型放在四个节点上并行探索时,每个模型的偏好分布互相补充,四者的联合覆盖范围远大于任何单一分布。
生态位新颖性指标直接证实了这一点:在同质化集成中,其他节点发来的冠军只有约9%到35%落在本节点的新格子里,因为大家用的是同一个模型,发现的东西自然高度重叠;在异质化集成中,这个比例跃升到43%到48%,说明来自不同模型的发现对彼此来说真的是新信息,真的在填补盲区。
这与强化学习和多智能体推理领域的一系列相关研究不谋而合。DARLING框架同时优化质量奖励和语义多样性信号,发现多样性能提升创意写作和数学竞赛任务的表现;DIVER框架在可验证奖励强化学习中加入序列级多样性内在奖励,提升了推理任务的通过率;多智能体辩论方法通过让多个大模型互相辩论来激发发散思维,解决单模型自我反思容易陷入思维退化的问题。DEI的实验结果与这些研究共同指向同一个方向:主动引入生成多样性,而不仅仅依赖随机采样,能带来可测量的探索增益。
局限与未来方向
研究团队在讨论部分相当诚实地指出了研究的边界。目前所有实验都在Core War这一个领域进行,这个领域的好处是有清晰的适应度函数和明确定义的行为特征空间。对于行为特征空间不那么结构化、或者适应度评估代价更高昂的领域,这些发现是否同样成立,还需要进一步验证。研究团队明确表示,虽然没有理论原因认为这些发现不会推广,但目前的实证结果严格说只限于Core War域内。
此外,从QD分数变化图可以看出,不同条件下都有较大的波动,说明结果存在一定的随机性。研究中可用的实验重复次数有限(异质化集成只有n=3次运行,同质化集成n=4次,单节点n=7次),更多的重复实验会进一步增强统计置信度。
研究团队还提出了几个有意思的后续探索方向。一是"自适应拓扑"——动态地连接那些档案库最互补的节点对,让信息流动更有针对性;二是"差异化行为特征轴"——让每个节点跟踪不同维度的行为特征,从而覆盖更高维度的行为空间;三是把这套框架扩展到Core War以外的多智能体协作任务。
技术实现:让不同速度的节点和谐共存
对于对技术细节感兴趣的读者,DEI的网络层实现也很值得介绍。
节点间的通信建立在一套叫做Yggdrasil的覆盖网络上,这套网络为每个节点分配一个基于公钥的稳定IPv6地址,并通过分布式生成树路由方案实现NAT穿透——这意味着即使节点在家用路由器或防火墙后面,也不需要手动配置端口转发就能参与协作。这对于分布式协作的普及性非常重要。
连接Yggdrasil网络层和DRQ应用层的是一个叫做AXL的开源工具,由Gensyn AI开发。AXL是一个Go语言编写的程序,嵌入了Yggdrasil核心,并对外暴露一个本地HTTP接口,应用程序只需与这个本地接口通信,无需直接管理网络套接字。AXL有四层架构:接受应用请求的HTTP API层,将到来的TCP消息分发给对应处理器的入站消息复用层,不需要root权限的用户空间TCP/IP协议栈(基于gVisor),以及管理节点密钥和路由的Yggdrasil核心层。
DEI只使用AXL提供的三个接口:发送消息(POST /send)、接收消息(GET /recv)、以及查询本节点身份和当前对等节点列表(GET /topology)。
实际的消息传播协议采用了GossipSub——这是一种在区块链网络(如以太坊2.0和Filecoin)中广泛使用的攻击弹性消息传播协议。GossipSub维护每个主题下D个对等节点的"网格",并向网格成员主动推送完整消息载荷。DEI实验中使用D=3,这意味着消息在N个节点中传播的跳数是O(log N)量级——对于四个节点来说,几乎一跳就能到达所有人。网格之外,节点通过IHA VE控制消息懒惰地宣告自己有某条消息,对方如果没有,可以用IWANT请求。每秒一次的心跳触发网格修复操作,确保节点加入或离开时系统能自我调整。
归根结底,这项研究回答的问题听起来很技术,但启示却相当朴素。当你用多个拥有不同"思维习惯"的AI协同工作时,它们能覆盖彼此的盲区,找到任何单一AI都无法独立发现的解决方案——而且这种收益并不需要更多的计算资源,只需要让"多样性"真正发生。在Gensyn的实验中,四个协作的异质AI以与一个单独AI完全相同的调用次数,找到了覆盖率多出28%、综合质量得分多出124%的程序集合。这不是算力的胜利,是认知多样性的胜利。
至于这种思路能否迁移到更广泛的领域——代码生成、数学证明、药物设计,乃至更复杂的开放性问题——目前还是一个开放的问题。但Core War这个古老的编程竞技场,意外地成了一块清晰的试金石。
Q&A
Q1:DEI框架和普通的多个AI并行搜索有什么区别?
普通的并行搜索只是把同一个AI模型复制成多份同时跑,多样性只来自随机采样的运气。DEI框架则是故意选用不同家族的大模型(比如GPT系列和Claude系列同时参与),让每个模型的不同"思维习惯"覆盖彼此的盲区。实验证明,在相同的总调用次数下,用不同模型的效果比用同一模型跑多份要好得多,覆盖率高出约28%,综合质量分数高出约124%。
Q2:Core War是什么,为什么要用它来做实验?
Core War是一个1980年代发明的编程竞技游戏,玩家用一种叫Redcode的汇编语言写小程序,放进虚拟内存里互相厮杀,目标是让对方程序崩溃。研究团队选它是因为它的规则清晰、胜负判定明确,程序的行为特征可以被量化成两个数字,非常适合用来测试质量多样性搜索的效果。
Q3:DEI框架里节点之间怎么交换信息,速度慢的节点会不会拖累快节点?
节点之间通过一种叫GossipSub的协议异步传递每轮的"冠军程序",不需要等待任何人,各自以自己的速度前进。速度慢的节点(比如本地运行的开源模型)不会拖累快节点,反而因为它有独特的发现视角,依然能为整个系统贡献来自不同分布的新信息。
