SIA自我进化AI系统深度评测：Hexo Labs创新突破

2026-06-13阅读 0热度 0

AI系统

AI自我增强领域近期迎来关键突破——Hexo Labs联合牛津大学发布一项研究成果，让系统自主完成“升级”操作。该论文以预印本形式发表于arXiv（编号2605.27276），最新版本更新于2026年5月28日。

一、AI进化的“瓶颈”——为何人类成为最大制约？

谈论人工智能能力跃升时，一个前提常被忽略：每一次进步几乎都依赖人类工程师的全程介入——从模型训练、参数调优到外围工具搭建，人工干预贯穿始终。类比而言，当前AI像一位天赋极高的学生，但每次想提升成绩，都需要老师手把手修改学习计划、更换教材、调整作息——学生无法独立完成“自我迭代”。

这种对人工干预的依赖，正是AI领域最根本的瓶颈。Hexo Labs团队明确目标：若能构建一个系统，在获得任务描述与评判标准后，自主决定如何改进——既能调整外部“操作手册”，又能修改内部“思维方式”——才算实现真正突破。SIA（Self-Improving AI with Harness & Weight Updates，即带工具链与权重更新的自我改进AI）正是这一设想的落地成果。

二、两条互不相交的研究路线——各自的局限

在SIA出现前，学术界已存在两条探索AI自我改进的路径，但长期各自为战，从未真正融合。

第一条路线称为“改外壳”。研究者设计一个“元AI”专门负责修改任务AI的操作手册——如更换工具、调整提示语、优化重试逻辑、改进输出解析方式等。这好比为厨师不断更换厨具、修改菜谱、优化备菜流程，但厨师自身的厨艺与知识储备保持不变。代表系统包括Darwin Godel Machine、Meta-Harness、Hyperagents等。它们的共同发现是：反复修改操作手册，提升的多是“流程效率”，而非AI真正的领域理解力——某些知识无论怎样调整提示语，AI都无法从内部“习得”。

第二条路线称为“练内功”。研究者设计固定训练流程，让AI面对新任务时，通过自身表现反馈调整内部参数（即“权重”）。这相当于让厨师通过反复做菜、品尝、总结，将新菜品的技巧真正内化到肌肉记忆中。代表工作包括TTRL、Discover-TTT等。但问题在于，训练流程由人工预先固定，AI只能在既定框架内学习，无法根据任务特点灵活调整学习策略。

两条路线的共同缺陷是“只用一只手”——要么只改外壳，要么只练内功，从未有人同时操作两者。SIA的核心贡献在于，首次将这两个动作整合到一个自动化循环中。

三、SIA的核心设计——三角协作的自我进化循环

SIA的整体架构可理解为三角协作模式，三个角色分别是“初始化专家”（元智能体）、“执行者”（任务智能体）和“反馈教练”（反馈智能体）。

元智能体负责“开局”：给定任务描述与若干参考实现，为任务智能体生成一套初始操作手册，包含系统提示语、工具调用逻辑、答案提取代码等，构成任务智能体的基本配置。

任务智能体是实际“执行者”：根据操作手册在受控沙盒环境中处理任务数据集，输出结果，并完整记录执行过程日志——每次模型调用、每次工具使用、每次输出提取均被记录为“轨迹”。

反馈智能体是循环的核心驱动力。它不只看汇总成绩数字，而是获取完整轨迹，像经验丰富的教练一样逐条诊断问题成因。诊断后，它需做出关键决策：下一步是修改操作手册（改外壳），还是触发一轮强化学习训练（练内功）？该决策本身是动态的，取决于观察到的任务类型与当前的改进瓶颈。

这个三角循环持续进行，直至耗尽预算步骤数。每一轮结束时，要么操作手册更优，要么模型内部参数更优，要么两者均有进步。整个过程无需人类介入，只需最开始时提供任务描述与评判标准（“验证器”）即可。

四、两个“旋钮”的具体运作——操作手册更新与权重训练机制

操作手册的更新遵循固定三步节拍：首先让当前版本的任务智能体运行一遍数据集，收集完整轨迹；随后反馈智能体分析轨迹，识别具体失败模式；最后反馈智能体生成改进报告与全新操作手册版本。过程中模型权重保持不变，变化的仅是“外部基础设施”——工具、提示语、解析逻辑、重试策略等。

为防止操作手册过度适配特定任务样本而丧失通用性，元智能体在生成初始操作手册时会接触多样化的任务描述——即“样本任务正则化”。这相当于厨师在制定标准菜谱时参考了各地、各种口味的顾客反馈，而非仅针对一桌客人。

权重更新过程更像定制化强化训练。反馈智能体不会机械使用同一种训练算法，而是根据当前任务特点与观察到的奖励信号分布，动态选择最合适的训练策略。在实验报告的三个任务中，分别出现了三种训练方式，体现了SIA在训练策略选择上的灵活性。

具体而言：当奖励信号密集、训练稳定性为主要考量的场景，反馈智能体选择“PPO with GAE”——一种带专门“价值评估辅助网络”的策略优化算法，让模型在不偏离已有能力太多的情况下稳步改进。当任务答案验证可在完整解答后快速并行生成大量尝试时，选择“GRPO”——无需额外价值评估网络，直接对一批尝试结果进行相对排名，计算成本更低，并行能力更强。当奖励信号极度稀疏——大多数尝试均失败，仅极少数能产生有用信号时，选择“熵优势加权”方法，通过给予少数成功案例更大的学习权重，让模型从稀少的成功经验中最大限度汲取养分，防止有用信号被大量失败噪音淹没。

研究团队还指出，在更广泛的实验中（不限于论文正式报告的三个任务），反馈智能体还观察并应用了两种额外策略：当奖励密集但主要风险是模型能力退化时，选用附加了“与原始模型差异惩罚项”的最简单强化学习形式；当奖励极度稀疏、策略梯度信号几乎为零时，先执行“精英模仿学习”——挑出少数表现最好的尝试，让模型直接学习这些成功案例，将基准成功率提升到合理水平后，再切换至正式强化学习阶段。

五、三个真实战场——SIA在法律、计算机系统与生物学领域的实际表现

为验证SIA并非仅对特定类型任务有效，研究团队选取三个完全不同领域进行测试，并直接对比此前最佳已知结果。

法律领域：中文刑事罪名分类

首个测试来自法律领域，具体任务为LawBench——一个包含191类中文刑事罪名分类的基准测试。给定一段真实案件的事实描述，模型需从191种罪名中找出正确类别。191种罪名涵盖极为细腻的法律区分：例如普通盗窃、公共财产盗窃与挪用公款同属“盗窃”类的不同分支；轻伤、重伤与故意伤害也各有不同法律定性。随机猜中概率不足1%，即便受过专业训练的法律从业者也倍感棘手。整个数据集包含5332个训练样本与913个测试样本，评测在测试集上进行。

SIA的进化过程如下：操作手册更新阶段，前几代建立了基本分类工作流，后续几代逐步将核心策略收敛至基于文本特征匹配与线性分类器的流程，通过不断调优字符级特征提取范围与正则化参数，准确率从初始13.5%稳步攀升至50.0%，超过此前最好成绩（45.0%）。此时反馈智能体发现改进停滞，切换至权重训练阶段，采用PPO with GAE对模型分类能力施加精确梯度压力，最终将准确率推至70.1%。仅靠更新操作手册已超越此前所有方法；加上权重训练后，额外提升20.1个百分点，达到此前最优结果的156%。

计算机系统领域：GPU核心运算优化

第二个测试来自底层计算机系统领域，任务是为AlphaFold2（一款预测蛋白质三维结构的著名AI系统）中的核心运算模块“三角乘法更新”编写高效CUDA程序，并在H100 GPU上运行。该运算模块的内存访问模式不连续，GPU并行运算能力难以充分利用；要写出真正高效的实现，需掌握众多H100特有的底层技巧——如共享内存分块、寄存器压力管理等。评分标准为1500除以运行时间，数值越大代表程序越快。此前最好成绩对应的运行时间约为1161微秒。

SIA在操作手册更新阶段，逐步构建并改进了能正常运行的CUDA程序，最终将运行时间压缩至12483微秒，取得约1.14倍加速比（相比起点14254微秒确有改善，但仍远未超越此前最优）。切换至权重训练阶段后，反馈智能体采用熵优势加权方法应对这种奖励极度稀疏的场景（大多数生成的CUDA程序要么编译失败，要么性能极差），让模型真正掌握了H100特有的优化技巧，最终将运行时间一举压缩至1017微秒，速度提升至基准的14.02倍，比此前最优结果快了12.4%。这一改进幅度令人印象深刻——从12483微秒到1017微秒的跃升几乎全部来自权重训练阶段；操作手册无论如何修改，都无法让模型“凭空学会”那些需要深度内化的GPU编程知识。

生物学领域：单细胞RNA数据去噪

第三个测试来自生物学领域，任务是优化一种名为MAGIC的单细胞RNA数据处理算法的参数。单细胞RNA测序技术用于测量每个细胞的基因活性，但由于技术局限，测量结果中大量本该非零的数值被错误记录为零（即“技术脱落”）。MAGIC算法通过在细胞之间共享和扩散信息来填补缺失值，但其效果严重依赖几个相互耦合的参数：近邻数量k太小会过度敏感于个别细胞噪声，太大则会抹平真实生物差异；扩散步数t与核带宽α也存在类似权衡。评估指标mse_norm越高越好，此前最好成绩为0.240。

操作手册更新阶段，任务智能体对参数组合空间进行了系统性探索，最终将mse_norm稳定在0.241，刚好超过此前最优。继续修改操作手册已无法进一步进步，反馈智能体随即切换至GRPO权重训练。在第一个权重训练检查点，模型产生了一个在操作手册迭代过程中从未出现的结构性改进：在MAGIC处理结果后添加两行代码，将输出数值裁剪为非负整数。这看似一个极其简单的后处理步骤，但其背后具有明确的生物学逻辑——真实基因表达计数不可能是负数，也不可能是小数；将结果取整并裁剪至非负范围，等于将一个生物学常识直接编码进模型的输出策略。这一改动将mse_norm提升至0.289，比操作手册最佳结果又高出20%。

六、两个旋钮分别改变了什么？——深入理解“外壳”与“内功”的本质区别

操作手册的更新，本质上是对“外部基础设施”的改造。在LawBench任务中，它搭建了结构化的答案提取层与候选罪名再排序工具；在CUDA优化任务中，它建立了能解析编译错误日志并将诊断信息结构化反馈给模型的工具，以及能精确测量中位运行时间的计时框架；在去噪任务中，它构建了批量配置驱动器与能将“参数组合-得分”配对结果整齐呈现给模型的解析工具。这些改变均属“外围”范畴——模型本身未变，变化的是模型与任务环境之间的接口与中介层。

权重训练的更新，则是对“内部知识”的真正改写。在LawBench上，梯度压力让模型学会了区分191个罪名中极度相似的子类别，这种细微辨别力无法通过任何提示语获得。在CUDA优化上，模型真正掌握了H100 GPU的特定编程技巧——这些技巧无法写入操作手册；你可以在操作手册中提示“注意共享内存分块”，但模型真正学会如何操作，只能通过自己生成代码、观察结果、接受梯度反馈来实现。在去噪任务中，“裁剪到非负整数”的后处理步骤，代表了模型将一个生物学约束内化为自身输出策略——这个约束在操作手册的无数次迭代中从未被提出，却在权重训练后自然涌现。

七、该系统还存在哪些值得正视的问题？

研究团队在论文中坦率指出了SIA当前面临的核心挑战，即“耦合协进化的古德哈特问题”。简而言之，古德哈特定律是著名社会科学经验法则：当一个衡量指标成为优化目标时，它就不再是好的指标——因为系统会开始“针对指标”优化，而非针对指标背后真正想衡量的内容。

SIA面临的是该问题的更复杂版本：操作手册更新与权重训练均针对同一个固定验证器进行优化。操作手册会寻找对当前模型最容易利用的框架，权重则在当前操作手册塑造的数据分布上训练，而这一操作手册随后又会改变。两个优化过程互相依赖、互相影响，最终收敛到的“稳定点”从理论上看是两个优化者之间的纳什均衡，而不一定是真正意义上的最优解——该稳定点在训练验证器上表现良好，但在验证器未覆盖的分布或任务变体上可能非常脆弱。这是一个开放的研究问题，SIA目前尚无解决方案。

八、下一步研究展望——团队的后续方向

研究团队提出两个主要后续方向。

第一，让“反馈智能体的决策本身”也变成可学习的对象。目前反馈智能体选择“改操作手册还是练权重”，依赖的是预先固化的大语言模型判断，本质上仍是人工设计的启发式规则。更理想的做法是将SIA在一系列任务上运行的经验积累起来，把每一次“（观察到的情况、采取的行动、得到的结果）”三元组作为外层强化学习问题的训练数据，让决策策略本身也通过强化学习来改进。这样便构建出真正递归的自我改进结构——不仅系统在进步，驱动系统进步的机制本身也在进步。

第二，让两种更新模式的切换实现更细粒度控制。当前SIA以“轮次”为单位在操作手册更新与权重训练之间粗粒度切换。更精细的调度方式应允许反馈智能体在操作手册搜索过程中途触发一次权重更新，或在权重训练刚完成后立即重启操作手册探索。减少从“发现瓶颈”到“采取行动”之间的延迟，可能解锁一些粗粒度交替模式下错失的改进路径。

总结

SIA这项工作的意义，与其说是“AI变得更强了”，不如说是“AI学会了以更系统化的方式让自己变得更强”。两者之间的区别，相当于一个靠刷题变得厉害的学生，与一个能主动分析自身弱点、决定是换教材还是找真实项目练手的学生之间的区别。后者的潜力显然更加开放。

目前，SIA在三个完全不同的领域均取得了超越此前最好结果的表现，至少证明了“同时调整外壳与内功”这条路径是可行的。至于能走多远，以及如何在保证系统不“钻空子”的前提下让其走得更远，可能是未来几年AI自我改进研究领域最值得持续关注的问题之一。有兴趣深入了解技术细节的读者，可通过arXiv编号arXiv:2605.27276查阅完整论文。

Q&A

Q1：SIA系统与普通AI大模型的本质区别是什么？

A：普通大模型在训练完成后能力基本固定，使用时只能靠外部提示引导。SIA则是一个自动化循环系统，能在给定任务后自主修改操作手册（外部工具与流程），同时通过强化学习更新模型内部参数，两者协同进行，整个过程无需人类工程师介入。

Q2：SIA在中文法律罪名分类任务上70.1%的准确率是如何实现的？

A：SIA首先通过反复修改操作手册，将分类流程优化至基于文本特征匹配与线性分类器的策略，准确率从13.5%提升至50%。随后检测到瓶颈后，切换至PPO强化学习训练，对模型区分191个罪名细微差别的能力进行针对性强化，最终达到70.1%，比此前最优结果高出25.1个百分点。

Q3：SIA训练权重时使用的强化学习算法为何每个任务不同？

A：不同任务的奖励信号特征差异显著。法律分类任务奖励信号密集且稳定，适合使用PPO以保证训练稳定性；CUDA优化任务中大多数生成代码无效，奖励极度稀疏，适合使用熵优势加权以放大稀少成功样本的学习信号；去噪任务可快速并行评估大量方案，适合使用GRPO降低计算成本。SIA的反馈智能体会根据观察到的轨迹动态选择最合适的算法。