StepFun团队深度测评：如何优化AI语音助手对话逻辑与自然度

2026-05-17阅读 0热度 0

Step

这项由阶跃星辰（StepFun）音频研究团队主导的技术成果，已于2026年4月28日以技术报告形式发布，完整论文可于ArXiv平台通过编号 arXiv:2604.25719 查阅。

你是否遇到过这种情况：向语音助手提问，它给出的答案在字面上完全正确，但整个交互过程却显得生硬、机械，仿佛在与一台自动应答机对话？答案都对，但就是缺乏交流的温度与自然感。这并非偶然现象，其背后是一个亟待解决的技术瓶颈——阶跃星辰团队的这项新研究，正是为了突破这一瓶颈。

研究背景：当AI精于“推理”，却疏于“表达”

理解这项研究，需要从一个关键的技术概念入手：“思维链推理”（Chain-of-Thought, CoT）。

传统AI模型倾向于直接输出最终答案。而思维链推理则要求模型在给出答案前，像人类一样逐步展示其思考过程。这种方法显著提升了AI处理复杂逻辑与数学问题的能力，OpenAI的o1与DeepSeek的R1等模型均以此见长。

支撑这一能力的主流训练方法是“基于可验证奖励的强化学习”（Reinforcement Learning with Verified Rewards, RLVR）。其逻辑清晰：为AI提供问题，若其推理后得出的最终答案正确，则给予奖励；反之则施加惩罚。通过反复迭代，模型越来越擅长推导出正确答案。

这套方法在文本领域成效显著。然而，当研究人员将其直接迁移至语音与音频领域时，一个显著的副作用随之浮现。

一、“可验证奖励陷阱”：追求正确答案，牺牲对话体验

将思维链推理与RLVR应用于语音AI，确实在客观评测指标上带来了提升——模型在声音场景识别与问答任务上的准确率显著提高。但与此同时，一个棘手的问题出现了：这些模型在实际对话中的体验急剧下降。

模型的回应变得简短、生硬，缺乏情感色彩与互动感，在多轮对话中尤为明显。研究团队将其描述为“答题机器”：技术上无懈可击，体验上却空洞乏味。

其根源在于奖励信号的单一性。可以类比培训一位客服：如果唯一的考核标准是“提供信息的准确性”，那么他自然会优化为以最快速度抛出正确答案。至于沟通方式、语气语调、是否关注用户情绪，这些不在考核范围内，自然会被忽略。久而久之，他就成了一台精准却令人不愿交流的“信息终端”。

这正是RLVR训练给语音AI带来的困境。音频是承载语调、情绪、节奏、停顿等连续信息的媒介，这些维度共同构成了真实的人类对话体验。但RLVR的奖励信号只认一点：最终答案的文本标签是否正确。于是，模型在优化过程中，会逐渐放弃对这些细腻维度的关注，将所有资源集中于“答对题”这一单一目标。

阶跃星辰团队将这一现象定义为“可验证奖励陷阱”。这既是研究的起点，也是整个工作旨在解决的核心难题。

二、重塑评估标准：以人类偏好定义“优质对话”

明确了问题根源，解决方案的思路也随之清晰：既然单一的“答案对错”标准会导致AI机械化，那就引入一套更贴近人类真实感受的评判体系——直接让人来评估回答质量。

这正是“基于人类反馈的强化学习”（Reinforcement Learning from Human Feedback, RLHF）的核心逻辑。RLVR问的是“答案对了吗？”，而RLHF问的是“这个回答听起来好吗？”。两者的区别，类似于选择题评分与作文评分的差异。

具体到多轮语音对话，“好不好”本身就是一个复合维度。部分标准相对明确，例如用户要求“用轻松的语气回复”，AI是否执行？对话中提及的条件，后续是否被准确记忆？这类问题有迹可循。另一些维度则更为主观，例如回应是否自然？对话流是否顺畅？语气是否恰当？这些判断难以用硬性规则量化，但人类一听便能感知。

为同时处理这两类评判，研究团队设计了一个统一的生成式奖励模型，具备灵活的评估模式。当对话样本存在明确标准时，模型按规则检查AI回答是否达标；当缺乏明确标准时，模型则将AI回答与一个参考回答进行对比，判断孰优孰劣。

这种相对比较的设计还带来了额外优势：它能提供“好很多”、“稍好一点”、“差不多”、“稍差一点”等细粒度反馈信号。对于模型训练而言，这种带有程度差异的指导，远比简单的二元对错判断更有价值，如同老师批改作文时给出的具体评语，远比一个“阅”字更有指导意义。

三、系统构建：模型架构与三阶段训练流程

确立了以RLHF为核心的解决方案后，Step-Audio-R1.5的整体设计与训练流程便围绕此展开。

模型硬件架构由三个核心组件构成：

音频编码器：负责“听觉”感知，采用经过海量语音数据预训练的阿里Qwen2音频编码器，将原始音频信号转化为模型可处理的特征。此部分在训练中保持冻结，以保留其强大的音频理解能力。

音频适配器：扮演桥梁角色，对编码器输出的连续特征进行2倍时间压缩（从每秒25帧降至12.5帧）。这一操作至关重要，能有效控制多轮对话中不断增长的序列长度，大幅降低计算成本与延迟。

语言模型解码器：负责“思考”与“生成”的核心，基于阿里Qwen2.5 32B模型初始化。它接收压缩后的音频特征，生成纯文本输出。为支持思维链推理，模型会先生成内部推理过程，再生成最终回答，两者在结构上分离。这种设计确保了RLHF训练能精准地作用于最终回答的质量优化，而不干扰推理逻辑。

整个训练流程分为三个阶段，层层递进：

第一阶段：以音频为中心的中间训练。目标是构建扎实的知识与感知基础，让模型真正理解多样化的音频内容，并掌握通用推理能力。训练数据融合了高质量音频理解任务数据与纯文本推理数据，二者互补，共同塑造模型的认知与推理框架。

第二阶段：冷启动有监督微调。前一阶段让模型变得“博学”，但博学不等于“会交流”。此阶段如同一次“对话礼仪培训”，旨在教会模型得体的对话行为。训练重点强化四种核心能力：多轮对话的连贯性（保持上下文记忆）、指令遵从（按要求调整语气或长度）、回应自然度（模拟人类对话模式）、互动意识（灵活应对追问、打断等动态场景）。所用数据均为精心构造的多轮对话，目的是建立良好的对话习惯，为后续RLHF优化奠定基础。

第三阶段：RLHF训练。在前两阶段夯实的基础上，此阶段专注于打磨对话的整体质量与体验。奖励信号由前述生成式奖励模型提供，采用相对比较方式。为确保模型能力平衡，明确规则型评判与主观偏好型评判在训练中同步进行。实践表明，分开训练会导致严重的“能力遗忘”，而联合训练则能有效维持两类能力的稳定性与协同性。

四、性能评估：数据背后的能力跃迁

完成训练后，研究团队通过一套涵盖8个不同维度的基准测试来全面评估Step-Audio-R1.5的能力，并与市面主流系统进行横向对比。所有对比均通过官方API重新测试，以确保公平性。参与对比的模型包括谷歌的Gemini 3 Flash、Gemini 3 Pro，以及阿里的Qwen3.5-Omni-Flash、Qwen3.5-Omni-Plus。

测试范围广泛，包括：专测多轮语音对话的AudioMultiChallenge、测试复杂逻辑推理的Big Bench Audio、测试专业音频理解的MMSU和MMAU、测试语音数学推理的Spoken MQA，以及阶跃星辰自研的三个测试集——Step-Caption（细粒度音频描述）、Step-DU（语音对话理解）和Step-SPQA（副语言特征问答）。

最终的综合平均分显示，Step-Audio-R1.5得分为77.97，在所有对比模型中排名第二，仅次于谷歌Gemini 3 Pro（79.67），并领先于Gemini 3 Flash（77.56）、Qwen3.5-Omni-Plus（75.77）和Qwen3.5-Omni-Flash（70.55）。

与其前代模型Step-Audio-R1（72.50分）相比，5.47分的平均提升背后，最突出的进步体现在AudioMultiChallenge上：从24.61分跃升至41.15分，提升超过16分。该测试专门模拟真实人类互动（包括打断、犹豫、话题转换等），而这正是RLHF训练的核心优化目标。

在与对话交互质量密切相关的Step-DU测试上，提升达18.39分。在Step-SPQA和Step-Caption上也有显著进步。

值得注意的是，在专门测试复杂多步逻辑推理的Big Bench Audio上，Step-Audio-R1.5取得了98.30的高分，几乎与前代持平。这表明RLHF的引入并未损害模型通过RLVR建立起的强大推理能力，两者实现了有效的协同与平衡。

从另一个视角看这些数据：Gemini 3 Pro/Flash是谷歌顶级的商用多模态系统，背靠海量数据与算力资源。Step-Audio-R1.5作为一个32B参数规模的开放研究模型，能在综合评分上超越Gemini 3 Flash并紧追Gemini 3 Pro，且在多轮对话等关键维度展现出接近或超越Gemini 2.5 Flash的能力，这一结果颇具竞争力。

五、意义与展望：从功能正确到体验卓越

这项研究揭示了一个核心观点：语音AI在技术上的正确性，与在用户体验上让人感觉“自然好用”，是两件不同的事，需要不同的方法论进行优化。

过去的语音AI研究存在一个隐含假设：只要模型能给出正确答案，就是好模型。这个假设在纯文本任务上或许成立，但在语音对话场景下远远不够。声音承载的信息远比文字丰富，情绪、语气、节奏、互动感……这些维度共同决定了一次对话是否舒适、自然，让人愿意持续交流。一个只会答对题的语音AI，如同一位学识渊博却不懂沟通的专家——你可以向他查询信息，但绝不会想与他聊天。

这项研究的价值，不仅在于它提升了测试分数，更在于它标志着语音AI研究重心的一次关键转移：从单纯追求“说什么是对的”，转向同时追求“怎么说更好”。这种转向，很可能正是未来语音助手、智能客服、AI伴侣等应用在用户体验上实现质变的关键。

研究团队指出，Step-Audio-R1.5是目前已知首个系统地将RLHF引入音频推理模型训练的工作。实验结果证明，那种机械、空洞的回应风格并非思维链推理方法固有的缺陷，而是奖励信号设计过于单一所导致的结果——而这个问题，完全可以通过更合理的训练方法予以纠正。

当然，这项工作仍存在探索空间。例如，奖励模型的判断与更广泛真实用户主观偏好之间的差距如何进一步缩小？在更长的多轮对话中，上下文连贯性与一致性能否持续优化？这些都是值得后续研究跟进的方向。对技术细节感兴趣的读者，可通过ArXiv编号 arXiv:2604.25719 查阅完整论文。

Q&A

Q1：RLVR和RLHF在训练语音AI时有什么区别？

A：RLVR（基于可验证奖励的强化学习）仅关注最终答案的文本正确性，使用二元对错信号进行训练。其优势在于自动化程度高，但缺陷是完全忽略了回应的语气、自然度与情感质感等音频特有维度。RLHF（基于人类反馈的强化学习）则通过人类对回应质量的综合评判来训练模型，能够有效捕捉对话是否自然、语气是否得当、互动是否流畅等难以量化的体验指标。Step-Audio-R1.5正是通过引入RLHF，来解决语音AI因过度优化正确答案而导致的“答题机器化”问题。

Q2：“可验证奖励陷阱”具体是怎么让语音AI变差的？

A：当语音AI采用RLVR训练时，其唯一的优化目标就是最终文字答案的正确性。在长期训练中，模型会越来越擅长提取和匹配正确答案标签，但对音频流中包含的情绪、语调、语速、停顿等丰富副语言信息越来越不敏感，因为这些维度不影响奖励分数。结果就是，模型在基于答案正确性的测试集上得分很高，但实际对话时回应短促、生硬、缺乏情感与连贯性，在多轮对话中体验尤其不佳。这就是“可验证奖励陷阱”导致的表现退化。

Q3：Step-Audio-R1.5的三阶段训练分别解决什么问题？

A：三个阶段目标明确，各有侧重。第一阶段“音频中间训练”解决基础的知识获取与音频感知能力问题，让模型能“听懂”并具备初步推理能力。第二阶段“冷启动有监督微调”解决对话行为规范与基础技能问题，让模型学会连贯对话、遵从指令、自然回应等基本交流礼仪。第三阶段“RLHF训练”则在前两阶段打好坚实基础上，专注于打磨整体对话质量与用户体验，通过人类偏好判断，引导模型从“答对题”升级为“进行一场自然、舒适的对话”。