清华大学与阿里巴巴AI联手：让机器真正“看懂”手持物品的人

2026-05-15阅读 0热度 0

阿里巴巴

这项由清华大学与阿里巴巴集团联合开展的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.19636。

电商直播的典型场景是：主播手持产品，指尖拨动拉链，掌心感受材质，向观众360度展示细节。这种“人-物交互”过程每天在线上重复数亿次。如果AI能自动合成此类视频，仅需一张人物肖像、一张产品静物图和一段语音指令，就能输出流畅逼真的演示内容——这将对内容生产流程带来根本性变革。

这正是CoInteract系统要解决的核心命题。其技术难点在于，如何让AI生成的手部与物品交互视频，不仅视觉自然，更要符合物理约束：手部不能穿透物体，手指姿态需贴合产品表面，整体动态必须逼近真人操作的真实感。

一、为什么AI做视频老是“手残”？

使用过AI图像生成工具的用户，大多遭遇过“手部恐怖谷”现象：生成的人像面部精致，但手部却出现多指、关节错位等结构异常。在视频生成领域，这一问题被进一步放大，因为任何单帧的手部失真都会在连续播放中格外突兀。

根本原因在于，当前主流AI视频模型本质上是“基于视觉统计的像素着色器”，而非“具备空间理解的物理模拟器”。模型擅长记忆“特定位置应呈现的像素颜色”，却无法理解“手与物品在三维空间中的拓扑关系及接触力学”。

类比而言，现有模型如同只临摹过成品照片的画师。他能绘制一盘外观准确的饺子，但若要求绘制“手正在捏合饺子皮”的动态，很可能产出手指穿透面团的失真画面——因为模型从未学习过手与面团之间的接触物理。

这导致系统常出现两类典型错误：一是手部或面部结构崩塌，如手指粘连、面部模糊；二是手物“穿模”，即手部几何体与产品表面发生非物理交叉。在强调真实感的电商演示场景中，任何一类错误都会直接摧毁观众的信任感。

二、以前的方案各有哪些缺陷？

在CoInteract之前，研究者主要探索过两条技术路径，但均存在明显局限。

第一条路径是“多条件生成”。该方法为每一帧提供详细的骨架姿态图与物品检测框作为条件输入，相当于让画家参照精细线稿作画。虽然精度可控，但生成每段视频都需运行复杂的预处理算法来生成这些“线稿”，流程笨重、技术门槛高。一旦更换产品或场景，整个预处理流程需重新适配，灵活性不足。

第二条路径是“多参考图注入”。仅向模型输入一张人物参考图和一张产品参考图，由AI自主融合生成视频。这种方法流程轻量、无需预处理，但代价是AI完全依赖统计先验“猜测”交互动作，缺乏物理约束。结果常出现手部姿态不合理、产品悬浮、场景前后不一致等问题。

两条路径均不理想，CoInteract因此尝试开辟第三条道路：在不增加繁重预处理的前提下，让AI真正学会人物与物体间的空间交互规律。

三、CoInteract的核心设计哲学：让AI同时“看”两个世界

CoInteract的整体架构基于扩散变换器（Diffusion Transformer, DiT）。你可以将其理解为“从噪声中逐步雕刻出视频帧的工厂”——AI从随机噪声开始，通过多轮迭代去噪，最终输出清晰连贯的视频序列。

本研究的核心创新在于训练阶段的双路生成策略。AI被要求同步生成两路内容：第一路是常规的彩色视频，即最终用户看到的画面；第二路则是特殊的“结构视频”——这路内容抹去人物的皮肤纹理与衣物细节，仅保留人体三维轮廓的剪影，同时完整保留产品外观。这类似于X光片与彩色照片的关系：后者追求视觉美感，前者则揭示底层结构。

两路视频在训练时共享同一套模型参数。通过让“结构视频”这一路持续监督彩色视频的生成过程，AI逐渐建立起对手部姿态、物品形态及空间关系的物理理解，而非仅仅记忆像素颜色分布。

最巧妙的设计在于：训练完成后，“结构视频”生成路径可直接移除。在实际推理（生成）阶段，系统仅运行彩色视频单路，不产生任何额外计算开销。这好比学生借助参考答案深化理解，但考试时独立作答——参考答案的知识已内化为其解题能力。

四、非对称注意力：让训练的智慧在推理时“留下来”

为确保双路训练的收益能有效迁移至推理阶段，研究团队设计了“非对称协同注意力”机制。其逻辑直观而有效。

训练分为两个阶段。第一阶段，允许两路视频的AI模块相互访问对方的全部特征，进行双向信息交换，从而学习彩色画面与结构剪影间的对应关系。第二阶段，开始“剪断”单向连接：彩色视频路径不再接收结构视频的信息，仅关注自身；但结构视频路径仍可同时观察彩色视频和自身内容。

这种非对称设计的关键在于梯度传播路径——结构视频对物理合理性的“监督信号”，通过其“回望”彩色视频的连接通道，持续影响两路共享的模型参数。换言之，结构视频对物理规律的“挑剔判断”，在暗中塑造着彩色视频的生成能力。当推理阶段仅使用彩色视频单路时，其参数已被这种训练方式深度优化，自然倾向于生成物理上合理的手部动作与人-物交互。

五、“人体感知专家混合体”：专人处理专事

除了双路协同生成，CoInteract还针对手部和面部的精细生成引入了“Human-Aware MoE”（人体感知专家混合体）设计。

“专家混合”概念可用专业厨房类比。普通厨房可能由一位厨师处理所有菜品，而高端厨房则细分岗位：甜点师、烤肉师、冷盘师各司其职，从而提升整体出品水准。

CoInteract采用了类似思路：AI在处理视频中不同区域的像素时，不再使用同一套处理逻辑，而是通过一个轻量级“路由器”判断当前图像区块所属的身体部位。若为头部区域，则交由专门的面部专家网络处理；若为手部区域，则转交至手部专家；其余区域由通用基础专家处理。

该路由器的训练使用了人脸和手部的边界框标注数据——研究团队预先知晓每一帧中面部和手部的位置，并通过交叉熵损失监督路由器学会正确分配任务。值得注意的是，路由器在做分类决策前，会对模型内部状态执行“停止梯度”操作，以防止路由器的学习过程干扰模型主体的核心训练。

这套专家混合设计带来的额外计算开销极低——相比基准版本，推理计算量仅增加1.04倍，几乎可忽略不计，但手部清晰度与面部身份一致性获得了显著提升。

六、如何给AI喂“懂交互的训练数据”？

再精巧的算法架构，若缺乏高质量训练数据支撑，也是空中楼阁。为使CoInteract学习到真实的人-物交互模式，研究团队构建了一套严谨的数据处理流程。

原始素材来自电商产品演示与直播视频，总计40小时。首先，团队使用Qwen-Edit图像编辑模型，将每一帧画面中的人物与产品分别分割提取，生成独立的人物参考图与产品参考图。随后，通过验证模块过滤掉人物、产品与原始画面不匹配的样本。

接下来是构建“结构视频”：使用SAM3工具获取产品在画面中的精确遮罩，同时利用SAM3D-body恢复人体的三维网格模型。将人体网格投影至图像平面，得到人体轮廓剪影，再与产品遮罩叠加，最终形成完整的结构帧。这便是双路训练中那路“X光视频”的数据来源。

经过严格的质量筛选，团队最终保留了12000条高质量视频片段。每条片段均包含配对的彩色视频、结构视频、手部与面部边界框标注，以及剪影遮罩。测试集则包含50条片段，覆盖多种产品类别及未见过的的人物身份，以确保评估的全面性与泛化性。

七、AI如何同时管好“过去”和“当下”？

在技术实现层面，研究团队还解决了一个关键问题：如何让AI同时理解多种具有不同时间角色的输入内容——包括历史运动帧、当前生成帧、参考图像，以及双路视频间的空间对应关系？

答案是一套名为“三维旋转位置编码”（3D RoPE）的坐标分配方案。每个输入模型的图像块都会被赋予一个三维坐标：高度、宽度、时间。这三个维度的坐标经过特定的数学编码后，模型便能通过两个图像块的坐标距离推断其时空关联性。

对于彩色视频和结构视频这两路内容，团队令其共享相同的高度与时间坐标，但在宽度坐标上错开——彩色视频使用正值，结构视频使用负值。这如同将两张地图并排摆放：左侧是彩色地图，右侧是地形等高线图，同一地点在两图中的纵坐标一致，横坐标则一正一负，对应关系清晰明确。

历史运动帧被分配负的时间坐标，相当于将其置于时间轴的“过去”。参考图（人物照与产品照）则被分配一个较大的时间坐标（例如第30、31帧），将其推至时间轴的“远端”。这使得AI能够将其识别为全局身份锚点，而非紧邻的前一帧。这种精心的设计让AI在处理每一帧时，既能从历史帧中获取运动连贯性，又能从远端参考图中汲取身份稳定性，避免两者混淆。

八、拿出成绩单：CoInteract与六种方法的正面对比

研究团队将CoInteract与六种现有方法进行了全面对比，包括AnchorCrafter、Phantom、Humo、VACE、InteractA vatar以及SkyReels-V3。所有方法均在相同输入条件下（相同的人物参考图、产品参考图和语音）生成视频，并在同一批50条测试视频上进行评估。

评估涵盖四个维度。在视频质量方面，使用三个指标：美观度评分（AES，越高越好）、画面质量评分（IQ，越高越好）、帧间流畅度（Smooth，越高越好）。在人物-物品交互合理性方面，使用Gemini 3 Pro大模型对每段视频回答50道关于“交互是否合理”的是非题，得分越高说明交互越真实；同时使用DWPose检测手部关键点的置信度（HQ，越高说明手部越清晰可信）。在参考一致性方面，分别用DINOv2特征相似度衡量人物身份保留程度（DINOid）和产品外观一致性（DINOobj），并用ArcFace衡量面部身份相似度（FaceSim）。在音视频对齐方面，则使用口型同步置信度（Syncconf）进行衡量。

在这场多维比拼中，CoInteract在交互合理性（VLM-QA 0.72）和手部质量（HQ 0.724）两项关键指标上位列第一，在人物身份保留和帧间流畅度上也处于领先位置。在美观度评分上，Phantom和Humo略高，但研究团队指出，这两种方法倾向于生成视觉华丽却与参考图背景不符的画面，以牺牲忠实度换取美观；而CoInteract则坚持还原参考图中的真实场景，在忠实度与一致性上取得了更优平衡。

在一项由24名众包评估者参与的用户调研中，评估者对每组7种方法生成的视频进行盲测排名。CoInteract在物品一致性、人物和背景一致性、交互合理性三项标准上均获得了最低的均值排名（排名数值越低越好），尤其在交互合理性上的优势最为显著，均值排名为1.79，远低于第二名InteractA vatar的3.33。

九、拆解分析：每个零件究竟贡献了多少？

为验证各设计模块的实际贡献，研究团队进行了三组消融实验，逐一移除特定组件并观察性能变化。

移除专家混合模块后，手部质量评分从0.724降至0.658，面部相似度从0.696降至0.662。这表明专家混合机制确实提升了手部和面部的生成精细度，且由于该模块本身极为轻量，其带来的推理计算开销几乎可忽略。

移除结构视频这路双路训练后，交互合理性评分从0.72骤降至0.48，跌幅达33%。这是所有消融实验中变化最大的一项，直接证实了“让AI同步观看结构视频”这一设计对提升物理合理性的核心作用。

保留结构视频至推理阶段（不丢弃）的版本，交互合理性得分略升至0.76，手部质量升至0.738。这说明若有结构视频直接参与推理，效果会更好——但代价是推理计算量暴增至基准版本的4.13倍，严重损害实用性。而非对称注意力机制的价值，正是以极小的性能损失，换取了推理阶段的零额外开销。

在定性可视化实验中，研究团队展示了结构视频与彩色视频在生成过程中的同步对齐效果，以及专家路由热图。热图清晰显示，路由器能精准地将面部区域像素块分配给面部专家，将手部区域像素块分配给手部专家，而非随机分配。

本质上，CoInteract这项研究实现了AI视频生成的“知行合一”：它不仅让AI通过海量视频进行隐式学习，更构建了一套训练机制，迫使AI在生成美观画面的同时，必须同步理解人体与物品的空间物理关系。通过“训练时双路监督，推理时单路生成”的策略，在保持推理效率的前提下，显著提升了AI对人体结构与物理交互的理解能力。

这对实际应用意味着什么？意味着在未来电商、数字营销、教育演示等场景中，AI自动生成的产品演示视频将更具可信度。仅凭一张人物照片和一张产品照片，即可批量产出逼真的带货视频，不再因诡异的手部动作“穿帮”而丧失说服力。当然，随之而来的，还有AI生成内容的伦理与真实性问题——这或许是每一位行业从业者需要持续关注与思考的议题。

Q&A

Q1：CoInteract生成视频为什么不需要额外准备骨架姿势图？
A：CoInteract在训练阶段同步学习彩色视频和结构视频。结构视频（人体轮廓叠加产品遮罩）所蕴含的交互物理约束，已通过非对称注意力机制内化至模型参数中。因此，在推理阶段仅需提供人物参考图、产品参考图和语音指令，无需额外准备逐帧的骨架标注数据。

Q2：专家混合模块会让CoInteract推理速度变慢吗？
A：影响微乎其微。消融实验数据显示，加入专家混合模块后，推理计算量仅为基准版本的1.04倍，增幅极小。这是因为面部、手部、基础这三个专家网络本身非常轻量，隐层维度仅为256，与整个扩散变换器模型的参数量相比可忽略不计。

Q3：CoInteract生成的视频在手部质量上比其他方法好多少？
A：在手部质量评分（HQ，基于DWPose手部关键点检测置信度）上，CoInteract得分为0.724。作为对比，其他方法中表现最接近的InteractA vatar为0.696，Humo为0.664，差距明显。在用户调研中，CoInteract在交互合理性上的均值排名为1.79（在7种方法中排名越低越好），显著优于第二名的3.33。