香港科大AI突破：自主调节算法攻克探索与利用平衡难题

2026-05-12阅读 0热度 0

人工智能

这项由香港科技大学、北京人工智能研究院和腾讯公司联合开展的研究，发表于2025年的国际学习表征会议（ICLR 2025）。研究团队提出了一种名为B-STAR的全新方法，旨在解决人工智能系统在自我训练过程中的一个核心难题。完整的研究细节可通过论文编号arXiv:2412.17256v2查阅。

理解这项工作的价值，可以类比一个学生的自学过程。当学生自学数学时，他始终面临一个经典的两难选择：是应该尝试不同类型的题目以拓宽思路（探索），还是应该反复练习已掌握的题型以巩固基础（利用）？过度探索可能导致时间浪费在超纲难题上；过度利用则容易陷入思维定式，限制能力突破。

当前，大型人工智能模型在自我进化时，正遭遇几乎相同的困境。为了处理复杂的推理任务，模型常常需要依赖自身生成的数据进行迭代改进，毕竟获取海量人工标注的高质量数据成本极高。但问题在于，现有的自我改进方法，往往在仅仅3到5轮训练后性能就进入平台期，无法继续提升。这类似于一个学生自学几天后，就感觉再也学不到新东西了。

那么，瓶颈究竟在哪里？研究团队通过深入分析发现，症结在于系统无法有效平衡“探索”与“利用”这两个关键维度。具体来说：

探索能力，指的是模型产生多样化正确答案的能力，如同学生尝试用多种解法攻克同一道题。
利用能力，则关乎外部奖励机制能否精准识别并筛选出高质量答案，好比老师需要具备准确评判答案优劣的慧眼。

为了精确度量这两个要素，团队设计了一套创新的评估体系。针对探索能力，他们采用了“Pass@K”指标，衡量模型生成K个候选答案中至少包含一个正确答案的概率。为了更稳定地评估探索的广度，他们还提出了“Pass@K-S”指标，要求K个答案中至少有S个独特的正确解法。这就像考察学生的创造性——不仅要能做对，还要看能想出多少种不同的解法。

对于利用能力，团队引入了“Best-of-K”准确率和“Reward@K-S”指标。前者检验奖励函数排名第一的答案是否正确；后者则评估排名前S的答案是否都正确。这相当于测试老师的评分水平——能否将真正优秀的答案挑选出来并排在前列。

通过对数学推理任务的案例研究，一个明显的趋势浮现：随着训练轮次增加，模型的探索能力会急剧衰退。具体表现是，生成答案的多样性显著降低，模型开始不断输出雷同的回应。与此同时，利用效果也会随着模型能力波动而变得不稳定。这种现象，类似于“学习疲劳”——学生在长时间自学后，思维逐渐僵化，只会套用熟悉的模式，失去了尝试新方法的意愿和能力。

更关键的是，探索与利用之间存在着复杂的动态关系。在训练的不同阶段，最优的平衡点其实一直在变化。早期，模型能力较弱，需要更保守的探索策略和更严格的筛选标准；到了后期，随着模型水平提升，则需要更大胆的探索和相对宽松的筛选。这就像学生的学习策略必须与时俱进：初学者宜稳扎稳打，高手则需敢于挑战难题。

基于这些洞察，研究团队开发了B-STAR（平衡式自学推理器）系统。它的核心创新在于，能够自动监控并动态调节探索与利用之间的平衡。B-STAR引入了一个“平衡分数”的概念，这个分数巧妙地综合了两方面因素：一是被选中的高质量答案的绝对数量，二是高质量答案在所有被选答案中所占的比例。

这个平衡分数的设计颇为精妙。假设我们希望每个问题至少能筛选出n*个正确答案，那么对于第i个问题，如果实际选出了n‘i个独特正确答案，总共选出了ni个答案，其平衡分数即为：min(n’i/n*, 1) × n‘i/ni。公式前半部分确保有足够数量的正确答案用于训练，后半部分则保证了选中答案的整体质量水平。这相当于制定了一套既重“数量”又重“质量”的智能选拔标准。

B-STAR系统通过动态调整两个关键参数来优化这个平衡分数：采样温度和奖励阈值。采样温度控制着模型生成答案的随机性——温度越高，答案越多样，但也可能更不靠谱；奖励阈值则决定了筛选答案的严格程度——阈值越高，筛选越严苛。

在实际运行中，B-STAR的调节策略展现出了清晰的阶段性智能。训练初期，系统倾向于采用较低的采样温度和较高的奖励阈值，这好比让初学者先牢牢掌握基础知识，不要好高骛远。随着训练的深入，系统会逐步提高采样温度，并适当降低奖励阈值，从而鼓励模型进行更多样化的探索，同时在筛选上给予更多包容。

效果验证：持续改进的显著优势

研究团队在多个高难度任务上验证了B-STAR的效果，包括GSM8K和MATH数学推理、APPS编程挑战以及ARC-Challenge常识推理任务。结果相当亮眼：

在GSM8K任务上，B-STAR取得了53.8%的准确率，显著超越了在线拒绝采样微调方法的46.8%。
在更困难的MATH任务上，B-STAR达到27.8%的准确率，相比基线方法的23.2%提升了4.6个百分点。

特别值得注意的是，B-STAR不仅在终点性能上领先，其整个训练过程都呈现出持续的改进曲线。传统方法往往几轮后就增长停滞，而B-STAR能保持稳定的上升势头。这种持续进化能力，正源于其动态平衡机制——系统能根据实时状态自动调整策略，从而避免陷入局部最优的陷阱。

为了证明动态调整的必要性，团队进行了对比实验。结果发现，即使使用最优的固定参数配置，其效果也远不及B-STAR的动态调节策略。这有力地说明了自适应策略的独特价值。就像一个优秀的教练，必须根据运动员的不同成长阶段调整训练方案，而非一套方法用到底。

此外，团队在更强大的Llama-3.1-8B模型上进行了测试，结果表明B-STAR的优势具有良好通用性，并不局限于特定模型架构，这为其广泛应用铺平了道路。

从工程实现角度看，B-STAR还有一个突出优点：计算成本可控。系统只需在小规模数据子集上计算平衡分数以确定最优配置，然后将这些配置应用于全量训练数据。这种设计使得额外的计算开销很小，不会显著增加训练负担。

更广阔的启示与未来方向

这项研究的意义，显然超越了单纯的技术改进。它为我们理解人工智能自主学习的内在机制，提供了一个崭新的视角。通过明确定义并量化“探索”与“利用”，研究为这个长期存在但缺乏系统理论框架的问题，建立了可分析、可优化的基础。这就像为模糊的概念找到了精确的测量尺。

从更宏大的视角看，B-STAR代表了人工智能向更智能、更自主方向演进的重要一步。传统机器学习方法严重依赖预设的超参数，而B-STAR展示了系统自适应调整策略的可能性。这种能力，对于未来开发能在复杂、动态环境中持续学习和进化的AI系统，具有关键价值。

当然，任何研究都有其边界。目前的方法主要通过调整采样温度和奖励阈值来控制平衡，未来可能需要探索更精细、更多元的调控机制。此外，当前验证主要集中在数学、编程和常识推理任务，在其他类型任务上的泛化能力仍需进一步检验。

展望未来，这项研究为AI自主学习开辟了多条有潜力的路径。例如，可以探索更高级的解码方法直接调控生成数据的探索性，或者通过更新奖励模型本身来提升利用效果。这些方向的突破，有望将自主学习的性能和应用范围推向新的高度。

归根结底，B-STAR的成功在于它巧妙地解决了一个看似简单实则复杂的问题：如何让机器在自学过程中，自主找到探索与利用的最佳平衡点。这个问题不仅困扰着AI，在人类学习、企业创新、科学研究等诸多领域同样存在。B-STAR提供的思路与方法，或许能带来更广泛的启发。

对于普通观察者而言，这项研究预示着一个趋势：未来的人工智能系统将变得更加智能和自主。我们或许很快就能见到能够持续自我完善、无需频繁人工干预就能适应新挑战的AI助手。这必将为教育、工作乃至日常生活带来变革。当然，这也促使我们思考：如何确保这些日益自主的系统，始终沿着增进人类福祉的轨道前行。

Q&A

Q1：B-STAR是什么，它解决了什么问题？
A：B-STAR是香港科技大学团队开发的平衡式自学推理器，专门解决人工智能在自我训练过程中探索与利用失衡的问题。传统AI自学方法往往在3-5轮训练后就停滞不前，而B-STAR通过动态调节让AI能够持续改进性能。

Q2：探索和利用在人工智能训练中具体指什么？
A：探索是指AI模型生成多样化正确答案的能力，如同学生尝试用不同方法解题；利用是指外部奖励机制准确识别高质量答案的能力，就像老师准确评判答案好坏。两者需要动态平衡才能实现最佳学习效果。

Q3：B-STAR在实际应用中表现如何？
A：B-STAR在多个任务上都显著超越了传统方法。在GSM8K数学任务上达到53.8%准确率，比基线方法提升7个百分点；在MATH任务上达到27.8%准确率，提升4.6个百分点。更重要的是，它能保持持续改进而不会陷入停滞。

香港科大AI突破：自主调节算法攻克探索与利用平衡难题

效果验证：持续改进的显著优势

更广阔的启示与未来方向

Q&A

相关阅读

最新教程

最新资讯