浙大角色扮演框架深度测评：四通道消息交互如何让AI成为沉浸式导演

2026-05-11阅读 0热度 0

角色扮演

AI角色扮演正面临一次关键的“沉浸感”升级。

当前的大语言模型在角色对话方面已相当成熟，但体验上仍有隔阂。多数系统更像一个知识渊博的聊天机器人，对话流畅却缺乏“灵魂”——环境是静态的，场景是固定的，角色是扁平的。当你试图体验一场需要多方搜证、与不同角色周旋的探案叙事时，现有系统往往力不从心。

这一局面即将被改写。浙江大学与腾讯优图实验室联合提出了名为AdaMARP的新框架。其核心目标明确：推动AI角色扮演从“会聊天”向“会演戏”进化。它让角色不仅能“说话”，更能“思考”、“行动”并“感知环境”，更重要的是，它能像一个真正的导演，在复杂的多场景叙事中灵活调度，动态引入新角色。

目前，这项研究成果已被自然语言处理顶会ACL 2026接收。

从“跟AI聊天”到“与角色共处”

理想的AI角色扮演是怎样的？用户设定一个角色，AI便能完全代入，在特定情境中保持人设，对环境线索保持敏感，并能依据复杂的人物关系做出恰如其分的反应。

现实却往往骨感。以经典探案场景为例，现有系统大多局限在固定场景，与有限的角色进行循环对话。你无法真正“勘察现场”，无法因发现新线索而“转场”，也无法在剧情需要时“召唤”新证人。整个叙事缺乏动态推进的实感，更像在一个封闭的聊天室进行文字游戏。

问题出在哪里？研究团队指出了两个关键瓶颈。

瓶颈一：环境成了“背景板”

许多系统只关注角色的“台词”。后续虽有改进，加入了“动作”或“内心独白”，但“环境”始终被当作静态的背景装饰。然而，在真实的叙事中，环境是活的——案发现场地毯上的特殊蜡痕、证人住所门口未干的泥渍、昏暗灯光下的摇曳阴影……这些环境细节不仅是氛围营造者，更是推动剧情和支撑推理的关键线索。

如果系统无法将环境作为与台词、动作同等重要的信号来建模和处理，角色就如同在真空中表演，失去了与世界的互动，沉浸感自然大打折扣。

瓶颈二：缺乏一个“总调度”

更根本的问题在于结构。多数系统默认场景和角色阵容是固定不变的。但一个生动的故事需要流动：侦探该去书房搜查还是询问女仆？下一个发言者应该是谁？何时应该切换场景以引入新线索和新人物？

现有框架很少系统性地处理这些调度问题。没有这样一个“导演”角色的存在，故事就很难自然地、有机地展开，无法支撑起开放、多线的复杂叙事。

AdaMARP：四通道演绎与智能调度导演

针对上述问题，AdaMARP从“角色演绎”和“叙事调度”两个层面给出了系统性解决方案。

沉浸式消息格式：思维、行动、环境与言语的交织

首先，AdaMARP为每一轮角色互动定义了一种全新的四通道消息格式：思考（Thought）– 行动（Action）– 环境（Environment）– 言语（Speech）。

这四种元素可以灵活交织，形成一个完整的角色响应。例如，福尔摩斯在询问一位神色不安的证人时，完整的输出可能是：

<煤气灯摇曳，证人下意识地瞥向壁炉上的时钟> [他在回避具体时间，那段时间他可能不在场]（用烟斗轻轻敲了敲桌面）案发当晚八点到九点，您究竟在哪里？

环境线索触发了内心推理，推理催生了施压动作，最终转化为追问的言语。一条清晰的“感知-思考-行动”链条就此形成，远比干巴巴的一句台词要生动、可信得多。

更重要的是，环境从此不再是点缀。案发现场的物证可以支撑推理链条，房间的布置能暗示主人的性格与行踪，而场景的切换则自然成为引入新人物、新矛盾的枢纽。

自适应框架：三智能体协作与场景管理器的五种指令

在架构上，AdaMARP将整个角色扮演过程建模为三个智能体的协作：

Actor模型：负责扮演所有非用户角色。
User模型：代表用户一方，可以是真人，也可以由另一个LLM模拟。
场景管理器（Scene Manager）：整个叙事的“总导演”。

这个“导演”手握一套清晰的指令集，驱动着整场“演出”：

init_scene：初始化场景（如“贝克街221B客厅”）。
pick_speaker：决定下一句台词由谁来说（是福尔摩斯追问，还是华生补充？），并给出理由。
switch_scene：切换场景（如“从案发现场切换到苏格兰场警局”）。
add_role：动态引入新角色（如“一位声称目击了马车的流浪汉”），并附带其基本人设。
end：结束当前互动。

每一步调度决策都会输出对应的理由，使得整个过程透明、可解释、可控制。这样一来，系统不仅能决定“谁来说”，还能决定“何时何地发生何事”，从而真正支撑起电影剧本般复杂的多场景、多角色叙事。

实战推演：一场AdaMARP驱动的虚拟探案

概念或许抽象，我们通过一个简化的福尔摩斯探案片段，看看AdaMARP如何在实际中运转。请注意，以下示例经过简化，略去了部分细节。

初始场景：伦敦东区某寓所，案发深夜。壁炉已熄，余烬旁的地毯上有一小块凝固的蜡痕。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：侦探应先勘察现场并给出初步推理。

福尔摩斯：<煤气灯昏黄，蜡痕在阴影中隐约可见> [烛泪的位置和形状……婚礼蜡烛，而且是左手持烛]（蹲下身捻起碎屑嗅了嗅，站起身）华生，去查查最近三个月内举办过婚礼、且家中有人左撇子的家庭。

场景管理器行动：pick_speaker (speaker: 华生)。理由：福尔摩斯已下达指令，助手应领命执行。

华生：（点点头）明白。（推门而出）<走廊里传来渐远的脚步声，随后是马车驶离的声响>

场景管理器行动：switch_scene。理由：华生已前往调查，需切换至下一个搜证地点——案发地邻居的住所。
新场景：房东太太狭窄昏暗的公寓，炖菜气味弥漫。

场景管理器行动：add_role (new_role: 房东太太)。理由：作为案发地邻居，可能掌握关键证词。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：讯问应由侦探主导开场。

福尔摩斯：（摘下礼帽）夫人，案发当晚八点到九点，您是否听见三楼有任何异常声响？

场景管理器行动：pick_speaker (speaker: 房东太太)。理由：需听取证人对时间线的陈述。

房东太太：<下意识地瞥向壁炉上的时钟> （略显慌张）我……我当时在楼下厨房。

场景管理器行动：pick_speaker (speaker: 福尔摩斯)。理由：证人出现回避迹象，应继续追问施压。

……

可以看到，从场景初始化、发言权调度、场景转换到新角色引入，整个叙事流程完全由场景管理器根据剧情逻辑动态驱动。这种结构化的多通道、多场景叙事，正是AdaMARP旨在实现的“沉浸式”体验。

让AI“会演”又“会导”：数据是如何炼成的？

如此复杂的能力，需要高质量的数据来训练。研究团队为此构建了两个相辅相成的数据集。

AdaRPSet：训练“演员”的演技

这个数据集用于训练扮演角色的Actor模型，它由两部分构成：

1. 文学提取集：从81部经典文学作品中，通过大语言模型自动提取出连贯的多角色互动场景，并将其严格转化为统一的“思考-行动-环境-言语”四通道格式。这些数据天然带有文学作品的质感和“人味”，是学习基础演绎能力的优质粮草。

2. 主题合成集：文学场景往往固定，缺乏动态调度。为此，团队在20类主题（如探案、冒险、密谋等）下，让LLM主动生成包含明确场景切换和角色引入的复杂情节轨迹。这专门用于强化模型适应动态叙事的能力。

AdaSMSet：训练“导演”的调度

这个数据集则用于训练核心的“导演”——场景管理器。它在上述合成数据的基础上，关键的一步是：在每两段角色发言之间，由另一个强大的模型自动插入“该谁说话”的决策指令，并生成具体、合乎上下文的选择理由。

最终，这个数据集覆盖了场景管理器所需的所有五类调度动作，为“何时换场、何时加人、谁接下一句”提供了端到端的监督信号。

两个数据集珠联璧合：一个让AI学会如何“演”得像，另一个让AI学会如何“导”得顺。它们共享统一的角色档案和消息格式，确保“演员”和“导演”能在同一套叙事语言下无缝协作。

AdaptiveBench：如何评估“沉浸感”？

有了框架和数据，最后一个关键问题是：如何科学地评估这种“沉浸式、可适应”的角色扮演效果？传统的单轮对话评测显然不够用。

为此，团队提出了AdaptiveBench评测框架。它不再纠结于“某一句话说得像不像”，而是从一整段完整的叙事轨迹出发，进行多维度的综合评估：

针对“演员”（Actor模型）的评估维度包括：

角色一致性：人设是否从头到尾保持统一？
环境基础：是否真的利用环境线索推动剧情？
人际互动：对话是否符合人物关系？
叙事推进：每次发言是否都在推动故事前进？
指令遵循：是否严格遵守四通道格式？

针对“导演”（场景管理器）的评估维度包括：

场景理解：切换场景的时机是否合理？
发言纪律：发言顺序安排是否得当？
角色引入判断：引入新角色的时机和理由是否自然？
整体节奏：整场调度的流畅度如何？

通过这套仿真评测体系，AdaMARP框架的优势得以量化呈现：它能够产出更连贯的“感知-思考-行动”链条，更有效地利用环境线索，并在多角色、多场景的复杂调度中展现出强大的灵活性和叙事推动力。

这无疑为下一代AI角色扮演指明了一个清晰的方向——从静态对话走向动态叙事，从聊天机器人走向具有沉浸感的“虚拟世界演员”。无论是互动式故事创作、沉浸式游戏，还是复杂的模拟训练，这项技术都打开了新的想象空间。

项目主页：https://xuzhenhua55.github.io/AdaMARP/#overview