清华大学与阿里巴巴AI联手:让机器真正“看懂”手持物品的人
这项由清华大学与阿里巴巴集团联合开展的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.19636。
电商直播的典型场景是:主播手持产品,指尖拨动拉链,掌心感受材质,向观众360度展示细节。这种“人-物交互”过程每天在线上重复数亿次。如果AI能自动合成此类视频,仅需一张人物肖像、一张产品静物图和一段语音指令,就能输出流畅逼真的演示内容——这将对内容生产流程带来根本性变革。
这正是CoInteract系统要解决的核心命题。其技术难点在于,如何让AI生成的手部与物品交互视频,不仅视觉自然,更要符合物理约束:手部不能穿透物体,手指姿态需贴合产品表面,整体动态必须逼近真人操作的真实感。
一、为什么AI做视频老是“手残”?
使用过AI图像生成工具的用户,大多遭遇过“手部恐怖谷”现象:生成的人像面部精致,但手部却出现多指、关节错位等结构异常。在视频生成领域,这一问题被进一步放大,因为任何单帧的手部失真都会在连续播放中格外突兀。
根本原因在于,当前主流AI视频模型本质上是“基于视觉统计的像素着色器”,而非“具备空间理解的物理模拟器”。模型擅长记忆“特定位置应呈现的像素颜色”,却无法理解“手与物品在三维空间中的拓扑关系及接触力学”。
类比而言,现有模型如同只临摹过成品照片的画师。他能绘制一盘外观准确的饺子,但若要求绘制“手正在捏合饺子皮”的动态,很可能产出手指穿透面团的失真画面——因为模型从未学习过手与面团之间的接触物理。
这导致系统常出现两类典型错误:一是手部或面部结构崩塌,如手指粘连、面部模糊;二是手物“穿模”,即手部几何体与产品表面发生非物理交叉。在强调真实感的电商演示场景中,任何一类错误都会直接摧毁观众的信任感。
二、以前的方案各有哪些缺陷?
在CoInteract之前,研究者主要探索过两条技术路径,但均存在明显局限。
第一条路径是“多条件生成”。该方法为每一帧提供详细的骨架姿态图与物品检测框作为条件输入,相当于让画家参照精细线稿作画。虽然精度可控,但生成每段视频都需运行复杂的预处理算法来生成这些“线稿”,流程笨重、技术门槛高。一旦更换产品或场景,整个预处理流程需重新适配,灵活性不足。
第二条路径是“多参考图注入”。仅向模型输入一张人物参考图和一张产品参考图,由AI自主融合生成视频。这种方法流程轻量、无需预处理,但代价是AI完全依赖统计先验“猜测”交互动作,缺乏物理约束。结果常出现手部姿态不合理、产品悬浮、场景前后不一致等问题。
两条路径均不理想,CoInteract因此尝试开辟第三条道路:在不增加繁重预处理的前提下,让AI真正学会人物与物体间的空间交互规律。
三、CoInteract的核心设计哲学:让AI同时“看”两个世界
CoInteract的整体架构基于扩散变换器(Diffusion Transformer, DiT)。你可以将其理解为“从噪声中逐步雕刻出视频帧的工厂”——AI从随机噪声开始,通过多轮迭代去噪,最终输出清晰连贯的视频序列。
本研究的核心创新在于训练阶段的双路生成策略。AI被要求同步生成两路内容:第一路是常规的彩色视频,即最终用户看到的画面;第二路则是特殊的“结构视频”——这路内容抹去人物的皮肤纹理与衣物细节,仅保留人体三维轮廓的剪影,同时完整保留产品外观。这类似于X光片与彩色照片的关系:后者追求视觉美感,前者则揭示底层结构。
两路视频在训练时共享同一套模型参数。通过让“结构视频”这一路持续监督彩色视频的生成过程,AI逐渐建立起对手部姿态、物品形态及空间关系的物理理解,而非仅仅记忆像素颜色分布。
最巧妙的设计在于:训练完成后,“结构视频”生成路径可直接移除。在实际推理(生成)阶段,系统仅运行彩色视频单路,不产生任何额外计算开销。这好比学生借助参考答案深化理解,但考试时独立作答——参考答案的知识已内化为其解题能力。
四、非对称注意力:让训练的智慧在推理时“留下来”
为确保双路训练的收益能有效迁移至推理阶段,研究团队设计了“非对称协同注意力”机制。其逻辑直观而有效。
训练分为两个阶段。第一阶段,允许两路视频的AI模块相互访问对方的全部特征,进行双向信息交换,从而学习彩色画面与结构剪影间的对应关系。第二阶段,开始“剪断”单向连接:彩色视频路径不再接收结构视频的信息,仅关注自身;但结构视频路径仍可同时观察彩色视频和自身内容。
这种非对称设计的关键在于梯度传播路径——结构视频对物理合理性的“监督信号”,通过其“回望”彩色视频的连接通道,持续影响两路共享的模型参数。换言之,结构视频对物理规律的“挑剔判断”,在暗中塑造着彩色视频的生成能力。当推理阶段仅使用彩色视频单路时,其参数已被这种训练方式深度优化,自然倾向于生成物理上合理的手部动作与人-物交互。
五、“人体感知专家混合体”:专人处理专事
除了双路协同生成,CoInteract还针对手部和面部的精细生成引入了“Human-Aware MoE”(人体感知专家混合体)设计。
“专家混合”概念可用专业厨房类比。普通厨房可能由一位厨师处理所有菜品,而高端厨房则细分岗位:甜点师、烤肉师、冷盘师各司其职,从而提升整体出品水准。
CoInteract采用了类似思路:AI在处理视频中不同区域的像素时,不再使用同一套处理逻辑,而是通过一个轻量级“路由器”判断当前图像区块所属的身体部位。若为头部区域,则交由专门的面部专家网络处理;若为手部区域,则转交至手部专家;其余区域由通用基础专家处理。
该路由器的训练使用了人脸和手部的边界框标注数据——研究团队预先知晓每一帧中面部和手部的位置,并通过交叉熵损失监督路由器学会正确分配任务。值得注意的是,路由器在做分类决策前,会对模型内部状态执行“停止梯度”操作,以防止路由器的学习过程干扰模型主体的核心训练。
这套专家混合设计带来的额外计算开销极低——相比基准版本,推理计算量仅增加1.04倍,几乎可忽略不计,但手部清晰度与面部身份一致性获得了显著提升。
六、如何给AI喂“懂交互的训练数据”?
再精巧的算法架构,若缺乏高质量训练数据支撑,也是空中楼阁。为使CoInteract学习到真实的人-物交互模式,研究团队构建了一套严谨的数据处理流程。
原始素材来自电商产品演示与直播视频,总计40小时。首先,团队使用Qwen-Edit图像编辑模型,将每一帧画面中的人物与产品分别分割提取,生成独立的人物参考图与产品参考图。随后,通过验证模块过滤掉人物、产品与原始画面不匹配的样本。
接下来是构建“结构视频”:使用SAM3工具获取产品在画面中的精确遮罩,同时利用SAM3D-body恢复人体的三维网格模型。将人体网格投影至图像平面,得到人体轮廓剪影,再与产品遮罩叠加,最终形成完整的结构帧。这便是双路训练中那路“X光视频”的数据来源。
经过严格的质量筛选,团队最终保留了12000条高质量视频片段。每条片段均包含配对的彩色视频、结构视频、手部与面部边界框标注,以及剪影遮罩。测试集则包含50条片段,覆盖多种产品类别及未见过的的人物身份,以确保评估的全面性与泛化性。
七、AI如何同时管好“过去”和“当下”?
在技术实现层面,研究团队还解决了一个关键问题:如何让AI同时理解多种具有不同时间角色的输入内容——包括历史运动帧、当前生成帧、参考图像,以及双路视频间的空间对应关系?
答案是一套名为“三维旋转位置编码”(3D RoPE)的坐标分配方案。每个输入模型的图像块都会被赋予一个三维坐标:高度、宽度、时间。这三个维度的坐标经过特定的数学编码后,模型便能通过两个图像块的坐标距离推断其时空关联性。
对于彩色视频和结构视频这两路内容,团队令其共享相同的高度与时间坐标,但在宽度坐标上错开——彩色视频使用正值,结构视频使用负值。这如同将两张地图并排摆放:左侧是彩色地图,右侧是地形等高线图,同一地点在两图中的纵坐标一致,横坐标则一正一负,对应关系清晰明确。
历史运动帧被分配负的时间坐标,相当于将其置于时间轴的“过去”。参考图(人物照与产品照)则被分配一个较大的时间坐标(例如第30、31帧),将其推至时间轴的“远端”。这使得AI能够将其识别为全局身份锚点,而非紧邻的前一帧。这种精心的设计让AI在处理每一帧时,既能从历史帧中获取运动连贯性,又能从远端参考图中汲取身份稳定性,避免两者混淆。
八、拿出成绩单:CoInteract与六种方法的正面对比
研究团队将CoInteract与六种现有方法进行了全面对比,包括AnchorCrafter、Phantom、Humo、VACE、InteractA vatar以及SkyReels-V3。所有方法均在相同输入条件下(相同的人物参考图、产品参考图和语音)生成视频,并在同一批50条测试视频上进行评估。
评估涵盖四个维度。在视频质量方面,使用三个指标:美观度评分(AES,越高越好)、画面质量评分(IQ,越高越好)、帧间流畅度(Smooth,越高越好)。在人物-物品交互合理性方面,使用Gemini 3 Pro大模型对每段视频回答50道关于“交互是否合理”的是非题,得分越高说明交互越真实;同时使用DWPose检测手部关键点的置信度(HQ,越高说明手部越清晰可信)。在参考一致性方面,分别用DINOv2特征相似度衡量人物身份保留程度(DINOid)和产品外观一致性(DINOobj),并用ArcFace衡量面部身份相似度(FaceSim)。在音视频对齐方面,则使用口型同步置信度(Syncconf)进行衡量。
在这场多维比拼中,CoInteract在交互合理性(VLM-QA 0.72)和手部质量(HQ 0.724)两项关键指标上位列第一,在人物身份保留和帧间流畅度上也处于领先位置。在美观度评分上,Phantom和Humo略高,但研究团队指出,这两种方法倾向于生成视觉华丽却与参考图背景不符的画面,以牺牲忠实度换取美观;而CoInteract则坚持还原参考图中的真实场景,在忠实度与一致性上取得了更优平衡。
在一项由24名众包评估者参与的用户调研中,评估者对每组7种方法生成的视频进行盲测排名。CoInteract在物品一致性、人物和背景一致性、交互合理性三项标准上均获得了最低的均值排名(排名数值越低越好),尤其在交互合理性上的优势最为显著,均值排名为1.79,远低于第二名InteractA vatar的3.33。
九、拆解分析:每个零件究竟贡献了多少?
为验证各设计模块的实际贡献,研究团队进行了三组消融实验,逐一移除特定组件并观察性能变化。
移除专家混合模块后,手部质量评分从0.724降至0.658,面部相似度从0.696降至0.662。这表明专家混合机制确实提升了手部和面部的生成精细度,且由于该模块本身极为轻量,其带来的推理计算开销几乎可忽略。
移除结构视频这路双路训练后,交互合理性评分从0.72骤降至0.48,跌幅达33%。这是所有消融实验中变化最大的一项,直接证实了“让AI同步观看结构视频”这一设计对提升物理合理性的核心作用。
保留结构视频至推理阶段(不丢弃)的版本,交互合理性得分略升至0.76,手部质量升至0.738。这说明若有结构视频直接参与推理,效果会更好——但代价是推理计算量暴增至基准版本的4.13倍,严重损害实用性。而非对称注意力机制的价值,正是以极小的性能损失,换取了推理阶段的零额外开销。
在定性可视化实验中,研究团队展示了结构视频与彩色视频在生成过程中的同步对齐效果,以及专家路由热图。热图清晰显示,路由器能精准地将面部区域像素块分配给面部专家,将手部区域像素块分配给手部专家,而非随机分配。
本质上,CoInteract这项研究实现了AI视频生成的“知行合一”:它不仅让AI通过海量视频进行隐式学习,更构建了一套训练机制,迫使AI在生成美观画面的同时,必须同步理解人体与物品的空间物理关系。通过“训练时双路监督,推理时单路生成”的策略,在保持推理效率的前提下,显著提升了AI对人体结构与物理交互的理解能力。
这对实际应用意味着什么?意味着在未来电商、数字营销、教育演示等场景中,AI自动生成的产品演示视频将更具可信度。仅凭一张人物照片和一张产品照片,即可批量产出逼真的带货视频,不再因诡异的手部动作“穿帮”而丧失说服力。当然,随之而来的,还有AI生成内容的伦理与真实性问题——这或许是每一位行业从业者需要持续关注与思考的议题。
Q&A
Q1:CoInteract生成视频为什么不需要额外准备骨架姿势图?
A:CoInteract在训练阶段同步学习彩色视频和结构视频。结构视频(人体轮廓叠加产品遮罩)所蕴含的交互物理约束,已通过非对称注意力机制内化至模型参数中。因此,在推理阶段仅需提供人物参考图、产品参考图和语音指令,无需额外准备逐帧的骨架标注数据。
Q2:专家混合模块会让CoInteract推理速度变慢吗?
A:影响微乎其微。消融实验数据显示,加入专家混合模块后,推理计算量仅为基准版本的1.04倍,增幅极小。这是因为面部、手部、基础这三个专家网络本身非常轻量,隐层维度仅为256,与整个扩散变换器模型的参数量相比可忽略不计。
Q3:CoInteract生成的视频在手部质量上比其他方法好多少?
A:在手部质量评分(HQ,基于DWPose手部关键点检测置信度)上,CoInteract得分为0.724。作为对比,其他方法中表现最接近的InteractA vatar为0.696,Humo为0.664,差距明显。在用户调研中,CoInteract在交互合理性上的均值排名为1.79(在7种方法中排名越低越好),显著优于第二名的3.33。
