百度安全ACL 2026两篇入选：模型智能与安全平衡方案

2026-06-12阅读 0热度 0

百度

第64届国际计算语言学年会ACL 2026的论文录用结果已于近日正式发布。百度在本届会议上表现尤为突出，共计23项研究成果被接收，包括17篇主会长文和6篇Findings长文，研究方向覆盖大模型安全、强化学习、多模态、高效网络结构及信息检索等多个前沿领域。这一成绩充分反映了百度在人工智能与大模型技术领域的深厚积淀。值得关注的是，百度安全团队贡献了两篇高分主会论文，这两项研究为大模型在复杂推理优化与安全对齐方面提供了关键的底层算法支撑。

补充一点，ACL 2026定于7月2日至7日在美国加利福尼亚州圣地亚哥举行。作为自然语言处理领域公认的顶级会议，同时也是CCF推荐的A类学术会议，ACL以严苛的评审标准和高强度的竞争著称。今年投稿总量攀升至12148篇，较往年显著增长。主会录用率仅为19%，Findings部分为18%——竞争之激烈，可见一斑。

30秒论文速览

**论文一：Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis——Conflict-Aware Sparse Tuning（CAST）缓解大模型安全对齐中的通用能力下降** 核心痛点在于行业内普遍存在的“对齐税”现象。为了让大模型遵循安全规范，例如学会拒绝恶意问题，研究人员通常会对模型参数进行全局更新。但这种“一刀切”的方式，往往会影响模型原有的逻辑推理能力，甚至导致模型在面对正常复杂问题时也出现过度拒绝。解法颇具巧思：CAST引入了一种精准的“局部对齐”策略。在正式训练前，它对模型进行诊断，定位出那些“既负责通用推理、又与安全目标冲突”的关键参数区域。随后在安全微调时，CAST会谨慎避开这些核心区域，仅更新冲突较低的安全参数区。效果方面：实验表明，应用CAST后，模型在达到同等安全防御率的前提下，数学和逻辑等通用能力得到了有效保留。换言之，它化解了安全与效用之间看似不可调和的零和博弈。 **论文二：Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via sequence-level likelihood——Token-Level Policy Optimization（TEPO）提升大模型推理训练的稳定性与效率** 该研究的痛点在于：大模型在进行复杂数学或逻辑推理时，往往需要输出长篇解题步骤。但传统训练方法通常只能根据最终结果给出一个整体评分。这导致模型在长上下文中难以定位具体哪一步正确、哪一步错误，结果容易陷入低效的试错循环。 TEPO给出的解法是：提出一种创新的分配机制，能够将最终的整体反馈合理且平滑地分配给过程中的每一个Token（词元）。同时，它能精准识别哪些节点出现了策略过度更新的苗头，并及时干预，防止模型性能退化。效果直观：该方法不仅在多项数学推理测试中提升了准确率，而且凭借高稳定性的梯度更新，将模型所需的强化学习收敛时间缩短了近50%。在迈向大模型和智能体规模化落地的进程中，赋予模型“高阶推理能力”与守好“安全可控底线”，是行业面临的核心挑战。大模型智能体要真正成为新质生产力的核心引擎，不仅需要通过强化学习获得深度思考的能力，还需要在复杂的交互环境中配备可靠的安全机制。百度安全的这两篇ACL 2026入选论文，正是沿着这一脉络，从底层算法架构出发，为大模型与智能体的演进提供了全新的优化路径。值得一提的是，这两项前沿突破并没有停留在纸面上，而是已深度融入并转化为“百度大模型安全护栏”的核心能力。

在企业级业务落地中，安全护栏往往面临两个现实难题：一是“复杂深层攻击识别难”，二是“业务可用性易受损”（例如误杀、降低模型智力）。借助CAST架构所代表的“局部微调与精准对齐”理念，百度大模型安全护栏能够在完全不干预模型正常业务逻辑、不损害通用推理能力的前提下，为企业级智能体提供一种“隐形但坚固”的安全防护。这大幅降低了企业实际调用中常见的大模型“过度拒绝”和“智商降级”问题。同时，TEPO架构赋予了护栏底层模型更强大的思维链推理能力，使其面对多轮次、隐蔽型的安全威胁时，也能进行高效、深度的逻辑判定。通过这两项技术，百度大模型安全护栏真正实现了“高阶智力”与“精准边界”兼得。以下，是百度安全团队这两项重磅成果的核心技术解读。

论文一：Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis——Conflict-Aware Sparse Tuning（CAST）缓解大模型安全对齐中的通用能力下降

论文链接：[https://arxiv.org/abs/2601.04262](https://arxiv.org/abs/2601.04262) **①研究背景** 在将大语言模型与智能体投入应用之前，安全对齐是必不可少的环节。但问题在于：现有模型普遍面临“对齐税”问题。当模型经过安全微调学会拒绝违规指令后，其原有的复杂逻辑推理、常识问答等通用能力，往往会出现不同程度的下降。现有的缓解策略大多试图从全局优化层面解决，对所有参数施加统一的更新规则。但百度安全团队指出，这种全局视角忽视了模型内部的“模块异质性”。大模型内部的注意力头（Attention Heads）存在明显的专业化分工：一部分参数更偏重通用推理，另一部分则更容易受到安全对齐的影响。如果在安全对齐时盲目更新所有参数，就不可避免会修改那些对通用能力敏感、同时与安全目标存在冲突的推理神经元，最终导致模型通用能力的下降。 **②核心方法** 为解决这一问题，百度安全提出了CAST（Conflict-Aware Sparse Tuning，冲突感知稀疏微调）框架。该框架将可解释性技术与参数高效微调相结合，实现了精准的参数级安全对齐。具体分为两步：第一步是“对齐前冲突诊断”。在正式训练前，CAST用少量校准数据对模型的注意力头进行评估。它综合考量两个指标：一是安全目标与通用能力在梯度方向上的对立程度，二是该注意力头对维持通用能力的重要程度。结合这两个指标，CAST生成一张“冲突地图”，清晰展示了：安全与效用的冲突并非弥漫全局，而是稀疏地集中在少数特定层的注意力头上。第二步是“预算匹配的安全对齐”。基于诊断结果，CAST摒弃全局更新，将模型参数划分为两类：高敏感的危险区和低冲突的安全区。在进行安全微调时，CAST将掌管核心逻辑的危险区参数冻结，仅对安全区的注意力头进行稀疏微调。

这张图清晰展示了CAST的两阶段流程——A是预对齐冲突诊断，B是冲突分数分区，C是预算匹配稀疏微调。直观体现了“只更新低冲突头”的核心思路，是技术原理的最佳可视化。 **③实验成果** 百度安全在Llama-3.1-8B、Qwen2.5-7B和Mistral-7B等开源模型上进行了对比实验。结果显示，CAST在安全与效用的平衡上，优于全量微调、随机稀疏微调等基线方法。通用能力的有效保留方面：以Llama模型为例，在达到同等安全防御率的前提下，传统全量微调导致MMLU准确率从59.38%降至46.28%，MATH数学推理准确率从44.40%降至19.20%。而采用CAST策略后，MMLU得分保持在55.73%，MATH得分保持在43.00%。差距非常显著。改善典型失效模式方面：CAST还改善了传统大模型在对齐后常见的两类问题。一是缓解了推理衰退——它保护了关键推理参数，使模型能保持步骤清晰的计算并给出正确答案；二是改善了过度拒绝现象——模型在面对长文本的正常数学题时，能正确识别良性意图并完成解答。

论文二：Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via sequence-level likelihood——Token-Level Policy Optimization（TEPO）提升大模型推理训练的稳定性与效率

论文链接：[https://arxiv.org/abs/2510.09369](https://arxiv.org/abs/2510.09369) **①研究背景** 大模型智能体在解决复杂数学和逻辑问题时，思维链（Chain-of-Thought, CoT）推理已成为最核心的能力。为提升这种能力，业界广泛采用强化学习（RL）技术，特别是近期备受瞩目的组相对策略优化（GRPO）。GRPO因去除了Critic网络的轻量化设计，有效推动了模型的推理表现。然而，现有的大模型强化学习方法在处理思维链时，面临一个底层技术挑战：Token级别的奖励极度稀疏。当智能体推导一道复杂数学题时，可能生成数千个Token的推理步骤。但传统强化学习只能在最终结果出来后给出一个全局的“组级奖励”，这就产生了“信用分配”难题：智能体很难区分长序列中到底哪一步是关键的正确推导，哪一步是导致最终计算错误的失误。在这种稀疏奖励下，现有方法往往只能依赖无差别的全局约束，容易导致模型策略退化，使训练过程变得很不稳定。 **②核心方法** 为解决此难题，百度安全提出了一种微观级优化框架——TEPO（Token-Level Policy Optimization），它在全局奖励与微观Token之间建立了有效连接。该框架包含两大核心创新机制：第一个是“序列级似然的软聚合”。传统Token级重要性采样会带来较大噪声和梯度方差。TEPO摒弃这种做法，转而利用数学分解原则，计算整个序列似然的几何平均值。这种“软聚合”机制，成功将稀疏的组级奖励平滑且稳定地分配到每一个单独的Token上。这不仅大幅降低了梯度估计的方差，还有效缓解了状态分布偏移问题。第二个是“有条件的稳定性控制”。针对无差别正则化带来的模型不稳定问题，TEPO引入了选择性KL散度掩码。该机制能精准锁定那些表现良好、但策略趋于过度自信的特定Token。只有当这些Token面临过快更新的风险时，掩码才会进行干预。这种精准的正则化控制，很好地平衡了探索与利用的关系。

这张图直观呈现了TEPO的两大核心创新：用序列级似然替代GRPO稀疏噪声的词元级信用分配，通过软聚合将分组奖励传导到单个词元；同时搭配词元级KL掩码，仅约束优势为正且熵递减的词元，防止策略突变。 **③实验成果** 百度安全在Qwen2.5-7B、Qwen3-14B、DeepSeek-R1-Distill等多个主流基础模型上进行了广泛测试。推理性能提升方面：在包含MATH-500、AIME24/25等在内的七大权威推理基准测试中，TEPO均优于多种基线方法，实现了平均准确率的提升。以Qwen3-14B模型为例，TEPO在AIME24赛事题集中取得了24.37%的得分，比传统GRPO/DAPO方法提升了5.21个百分点。更高的收敛效率方面：得益于稳定的梯度更新机制，TEPO仅需72个优化步骤就能达到较优性能，而基线方法则需要132步。这意味着TEPO在维持较高性能水平的同时，将智能体强化学习的收敛时间缩短了近50%，大大节约了算力成本。 **结语与展望** 从基础大语言模型逐步演进到具备复杂任务执行能力的智能体，是当前AI技术发展的重要趋势。在这一进程中，提升复杂推理能力与确保系统安全可控，是至关重要的两个命题。百度安全本次入选ACL 2026的两篇研究论文，从底层算法层面给出了有效的优化思路。TEPO框架为智能体提供了更高效的强化学习方案，缓解了长上下文推理中的奖励分配难题；而CAST架构则通过精准的参数诊断与局部微调，为大模型构建了更精细的安全对齐机制，有效减少了对齐过程对模型通用能力的损耗。未来，百度安全将继续深耕AI基础安全与算法研究，探索前沿技术在工业界的规模化落地应用，携手学术界及产业界，共同完善人工智能的安全基础设施，助力大模型与智能体生态的健康、长远发展。

百度安全ACL 2026两篇入选：模型智能与安全平衡方案

30秒论文速览

论文一：Safety-Utility Conflicts Are Not Global: Surgical Alignment via Head-Level Diagnosis——Conflict-Aware Sparse Tuning（CAST）缓解大模型安全对齐中的通用能力下降

论文二：Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via sequence-level likelihood——Token-Level Policy Optimization（TEPO）提升大模型推理训练的稳定性与效率

相关阅读

最新教程

最新资讯