北大发布RealAppliance：家电仿真平台权威测评与核心功能解析

2026-05-13阅读 0热度 0

机器人

教会机器人操作家用电器，是家庭服务机器人迈向实用化必须攻克的核心难题。这远非在桌面上移动几个简单物体可比。面对一台微波炉或洗衣机，机器人需要精准识别按钮、旋钮、门体等形态各异的部件，并深刻理解其背后由模式切换、状态约束与操作逻辑构成的复杂规则体系。简言之，成功的家电操作要求机器人具备三重能力：精准的部件感知、准确的说明书解析以及按步骤可靠执行的动作规划。

因此，基于自然语言说明书进行家电操作规划的能力，已成为衡量具身智能能否适应真实家庭场景的关键标尺。

然而，这项能力的系统化评测长期面临挑战。在物理世界进行测试成本高昂且风险巨大——家电设备价格不菲，误操作可能导致设备损坏甚至安全事故。同时，真实家电品类繁多、维护复杂，难以支撑大规模、可复现的标准化实验需求。

更深层的挑战在于，一个有效的评测基准必须超越单纯的“文档阅读理解”。它需要构建在高度拟真的虚拟家电之上，这些家电在外观、功能逻辑与交互反馈上都需与真实设备对齐。而这正是当前仿真资源中最稀缺的部分。

针对这一瓶颈，北京大学董豪团队的研究人员高玉正、龙宇星等人，推出了RealAppliance数据集与RealAppliance-Bench评测基准。该团队此前在CVPR 2025的Highlight工作“CheckManual”中，已开创了基于说明书的家电操作研究范式。本次工作则实现了关键升级，将评测对象从一个“手册理解”问题，拓展为一个由“说明书、设备资产、交互机制与程序状态”共同构成的完整操作闭环系统。

RealAppliance数据集包含了100个经过精细建模的家电数字资产，覆盖14类常见电器，并在真实说明书、外观结构、交互机制和程序逻辑四个层面实现了系统化对齐。基于此构建的RealAppliance-Bench评测基准，则通过手册检索、开环规划、部件定位、闭环调整和全过程推理这五个递进任务，系统性评估模型在基于说明书的家电操作规划中的各项核心能力。

实验结果显示，即便是当前主流的多模态大模型与具身规划模型，在这一更贴近真实世界的评测体系下，依然面临显著挑战。

Figure 1: RealAppliance 数据集概览。该数据集包含 100 个高保真家电资产，覆盖 14 个类别，并为每个资产配套真实说明书。

构建高保真、可交互的虚拟家电世界

RealAppliance数据集覆盖微波炉、烤箱、洗衣机等14类常见家用电器，其配套说明书语言涵盖中文、俄语、法语、德语等多种语言。该数据集的核心价值在于，每个数字资产不仅在视觉外观上高度还原，其关键部件的功能逻辑与程序状态转移也与真实家电严格一致。这为基于说明书的操作规划研究，提供了一个可重复、可扩展且高度拟真的仿真实验平台。

与仅提供三维可动模型的传统资产库不同，RealAppliance强调“说明书-资产-程序逻辑”三者的系统性对应。因此，它不仅能复现设备外形，更能支持对操作顺序、状态约束乃至执行过程中的反馈修正等复杂环节的评测。这标志着相关研究向标准化评估迈出了关键一步。

Figure 2: RealAppliance 与现有数据集的对比：传统数据集普遍缺乏手册对齐与程序逻辑，而 RealAppliance 实现了说明书、资产与交互逻辑的系统对齐。

从图纸到“生命”：资产构建四部曲

如图3所示，RealAppliance的构建遵循一套严谨流程，旨在从外观、结构、交互和状态逻辑四个层面同步逼近真实电器。

Figure 3: RealAppliance 资产构建流程：收集手册与照片、完成高保真建模、配置交互机制，并依据说明书设计程序逻辑。

第一步，收集说明书与真实照片。研究团队从全球多个地区系统收集了家用电器及其对应的用户手册与高清实物照片。筛选样本时，他们设定了四条核心标准：部件尺寸适合机械臂操作（可操作性）、手册篇幅符合大模型上下文处理能力（长度适中）、部件名称与步骤描述清晰（表述明确）、以及包含准确的尺寸数据与高分辨率图片（信息完整）。这套标准确保了资产来源的真实性与信息充分性，为后续工作奠定了统一基础。

第二步，电器数字资产建模。此阶段的难点不仅在于外观复刻，更在于将关键操作部件拆解为可计算、可交互的独立结构单元。团队基于手册和照片，在Autodesk 3ds Max中进行精细化建模，每个功能部件均作为独立组件处理，并通过增加多边形密度来提升视觉质感。随后，利用Unfold3D展开UV贴图，并在Adobe Photoshop中绘制高精度彩色纹理，以还原表面颜色、图标等细节。最终，模型被导入NVIDIA Isaac Sim生成USD格式资产，所有部件命名严格遵循说明书术语，并精细调节材质以呈现玻璃、塑料、金属等不同表面效果。

为使模型具备可交互性，团队为不同部件配置了相应的物理关节：旋转关节用于旋钮、铰链门，棱柱关节用于按钮、滑块，固定关节则分配给触摸屏等静态界面。

第三步，配置电器机制。为了让虚拟家电能像真实设备一样提供物理与状态反馈，研究团队构建了一套模块化的物理与电子机制体系。物理机制包括模拟弹簧复位的“内部弹簧”、实现部件吸附的“磁吸”、触发联动的“机械触发”、实现机械定时的“旋钮倒计驱动”以及保障安全的“安全锁”。电子机制则涵盖更新屏幕纹理的“屏幕显示”、检测触摸的“触摸感应”、控制内部照明的“照明”、同步状态提示的“指示灯”以及驱动部件运转的“旋转马达”。这套机制使三维模型转变为具备状态响应能力的仿真实体。

第四步，设计电器程序逻辑。这是赋予虚拟家电“行为灵魂”的关键步骤。团队严格依据真实说明书，为每个电器编写了程序脚本。脚本首先定义电源、温度、时间等核心状态变量，随后将各个部件与上述机制绑定，最后严格按照说明书中的操作顺序与条件约束来设计完整的状态转移逻辑。由此，当虚拟旋钮被转动或按钮被按下时，便能触发屏幕显示变化、电机启动、灯光亮起等一系列连锁反应，完整复现真实电器的工作流程。

五重关卡：系统评估操作规划全链路

基于构建完成的数据集，RealAppliance-Bench评测基准应运而生。如图4所示，它模拟了机器人完成一次家电操作所需经历的核心环节，设计了五个层层递进的任务，旨在系统化评估模型在各阶段的能力短板。

Figure 4: RealAppliance-Bench 的五个任务：手册检索、开环规划、部件定位、闭环调整与全过程推理。

任务一：手册页面检索。家电说明书内容繁杂，模型需要快速定位关键信息。此任务要求模型根据给定的手册和目标页面类别（如“操作步骤”），从完整文档中精准检索出相关页面，考验其文档理解与信息筛选的基础能力。

任务二：开环操作规划。这是对核心规划能力的测试。给定任务指令（如“用微波炉加热牛奶”）、电器手册和初始观测图像后，模型需要规划出一系列正确的原子动作序列。基准定义了9种电器操作动作（按下、旋转、打开等）和4种物体操作动作（拾取、放置等），模型必须选择正确的动作类型并填写准确参数。

任务三：电器部件定位。规划出“按下启动键”的指令后，机器人还需知道“启动键”在视觉上的具体位置。此任务要求模型结合手册文本描述和部件名称，在当前观测图像中预测出该部件的精确边界框，评估其跨模态（从文本到视觉）的对齐能力。

任务四：闭环规划调整。真实环境充满不确定性，例如门可能因未关严而意外弹开。此任务模拟了执行过程中的扰动，要求模型在给定历史操作记录、初始计划以及实时观测后，预测出下一个正确的修正动作，考验其根据环境动态反馈进行实时调整的能力。

任务五：全过程推理。这是终极综合性挑战。模型需要串联完成前四个任务，并在执行过程中应对可能出现的干扰。任何一环出错（如部件定位不准或动作预测错误）都会导致整个任务失败，直接反映了模型的端到端鲁棒性与综合规划执行能力。

Figure 5: RealAppliance-Bench 的统计信息

当前模型表现：理想与现实仍有差距

利用RealAppliance-Bench，研究团队对多类主流模型进行了系统评测，包括GPT-4V、Gemini系列等专有多模态模型，Qwen3-VL、GLM等开源多模态模型，以及Robobrain 2.0、ManualPlan等具身规划模型。

结果如图6所示，尽管不同模型在局部任务上表现各异，但面对这个与真实逻辑对齐的完整操作链路时，模型的整体表现距离可靠应用仍有明显差距。

Figure 6: 模型在 RealAppliance-Bench 上的表现概览

手册检索：专有模型整体表现领先，开源模型次之，具身规划模型相对较弱。这表明，当前具身模型在针对具体任务进行特化训练后，其通用的文档理解能力可能有所削弱。
开环规划：所有模型均未表现出稳定的可靠性。常见错误包括使用错误的动作类型、选择错误的目标部件，甚至直接遗漏关键操作步骤。这说明模型尚未真正掌握说明书中隐含的条件依赖与步骤顺序逻辑。
部件定位：模型预测的部件边界框与真实位置的重合度（IoU）普遍较低，大多在0到0.05之间。其核心难点在于，模型需要将手册中抽象的示意图或文字描述，与真实图像中不同视角、光照下的视觉线索进行精确匹配，这对空间理解与视觉指向能力提出了极高要求。
闭环调整：模型普遍不擅长根据环境状态变化来动态修正既定计划。除了动作类型错误，参数预测不准（如旋转角度偏差）是主要的失败原因之一。这反映出模型在细粒度视觉感知与将感知转化为精准决策两方面均存在不足。
全过程推理：几乎所有模型的端到端任务成功率都趋近于零。误差在任务链路上的不断累积与放大，清晰地揭示了当前系统在真实、复杂的家电操作场景中，其鲁棒性与闭环执行能力依然非常脆弱。

总结与展望

总体而言，RealAppliance首次在家电操作场景中实现了“真实说明书、高保真资产与可执行操作逻辑”的系统性对齐，将基于说明书的操作规划评测推进到了一个更贴近现实的新阶段。它所构建的RealAppliance-Bench，为研究者提供了一条从文档理解到闭环执行的完整测试链路，也更为清晰地勾勒出了当前各类模型在关键环节上的能力边界。

展望未来，RealAppliance不仅可作为标准化评测平台，其高保真的资产与丰富的交互机制，也为研发更底层的家电操作策略或更高层的任务规划模型提供了宝贵资源。随着此类仿真资源与评测体系的持续完善，家庭服务机器人最终走进千家万户、可靠处理各类家电任务，将不再是一个遥远的愿景。

北大发布RealAppliance：家电仿真平台权威测评与核心功能解析

构建高保真、可交互的虚拟家电世界

从图纸到“生命”：资产构建四部曲

五重关卡：系统评估操作规划全链路

当前模型表现：理想与现实仍有差距

总结与展望

相关阅读

最新教程

最新资讯