腾讯混元联合南洋理工突破AI换脸识别：视频人脸检测新方案权威评测

2026-05-19阅读 0热度 0

AI生成视频

这项由南洋理工大学、腾讯混元、中国科学技术大学和北京师范大学联合开展的研究，以预印本形式于2026年5月发表，论文编号为arXiv:2605.04702，题为“FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation”。

用AI工具把自己的照片变成一段视频，这事儿听起来很酷，但实际效果往往让人哭笑不得。明明输入的是你的脸，可视频里的人物一转身或一挥手，面部就开始“崩塌”：眼睛跑偏，鼻子变形，整张脸像被随意揉捏过的橡皮泥。问题其实不在你的照片，而是当前几乎所有AI视频生成技术都绕不开的一个核心难题：一旦人物头部发生大幅度转动，或者被手、头发等物体部分遮挡，AI就开始“自由发挥”，把一张熟悉的脸画得面目全非。

根源其实很直接。你给AI一张正面照，它学到的只是你正面朝前的静态模样。当视频需要你点头、摇头或转身时，AI对你侧面的轮廓、仰头时的下巴线条、低头时的眉骨形态一无所知。它只能靠猜，而结果往往不尽如人意。

正是为了攻克这个顽疾，上述四家机构的研究团队提出了一套名为“FaithfulFaces”的新方法。其核心思路是，从单张照片出发，不止记录“此刻的模样”，而是推断出“各种角度下的全局面貌”，再将这个更完整的面部认知注入视频生成流程。实验数据显示，在衡量人脸身份保真度的关键指标上，FaithfulFaces比当前最强的开源方法高出约18%，相比知名商业产品Kling也优势明显，同时生成视频的整体画面质量也更胜一筹。

一、从一张照片“脑补”出你的360度面孔

理解FaithfulFaces，不妨从一个生活场景入手：你刚认识一位朋友，只见过一次正面，之后他转过身去，你还能认出来吗？大多数人可以。因为我们的大脑在初次见面时，构建的不是一张“正面快照”，而是一个关于对方面部轮廓、五官分布与整体气质的立体印象。即便只看到侧影，也能凭借这个印象做出判断。

FaithfulFaces的目标，就是让AI具备类似的能力。研究团队设计了一个名为“姿态共享身份对齐器”的核心模块，它就像一个经过专门训练的“人脸素描师”：无论输入的是正面、侧面还是仰角照片，它都能将这些不同角度的面部信息，统一归纳到一套共同的“面部词典”中，提炼出这张脸在各种角度下都稳定存在的核心特征。

这套词典在技术上称为“姿态共享字典”，可以把它想象成一本厚厚的“人脸角度百科”。里面存储了成千上万个面部特征条目，每张输入的人脸图像都会根据自身角度和样貌，去百科里“查询”最相关的条目，然后重新组合，形成一个能代表该面孔在全角度下的综合描述。经过这个过程，AI获得的就不再是“你正面的一瞥”，而是一个更立体、更全面的面部认知。

更巧妙的是，团队还为系统额外提供了一份“角度说明书”。具体而言，他们使用欧拉角（分别对应仰俯、左右转动、头部倾斜）来量化每张人脸的朝向，并将这个角度信息直接编码进特征处理流程。这就好比在给素描师看照片时，附上一张纸条注明：“此张为侧脸微仰”。有了这个提示，素描师就能勾勒出更准确的全角度形象。实验证明，加入角度信息能进一步提升视频中面部身份的一致性。

二、AI如何“学会”区分角度变化与身份变化

光有词典还不够，关键还得让AI明白一个道理：同一个人从不同角度看，外观虽有差异，但身份未变；而两个不同的人，即便都是正面照，也依然是两个独立的个体。这听起来像常识，但对AI而言，区分“同一人的不同角度”和“长相相似的不同人”，恰恰是难点所在。

为此，研究团队设计了一套名为“姿态变化-身份不变约束”的训练策略。具体做法是：在训练时，从每段视频中随机抽取同一个人物的两帧画面（这两帧的姿态通常不同，例如一正一侧）。系统被要求使这两帧经过对齐器处理后，得到的特征表示尽可能相似——因为它们是同一个人。同时，来自不同人物的画面，则被要求产生尽可能不同的特征表示。

这套方法借鉴了AI领域广泛使用的“对比学习”思想。可以把它比作一场考试：老师将同一学生不同发型的照片标记为“同一人”，将不同学生的照片标记为“不同人”，然后让模型反复练习，直到它能准确分辨“角度/发型变化但身份未变”与“身份根本不同”这两种情况。

从信息论视角看，这种训练方式有一个优美的数学保证：它本质上是在最大化同一个人不同角度面部特征之间的“共同信息”。换言之，它迫使系统去捕捉那些跨越角度变化依然稳定的身份核心特征，而非被暂时的姿态差异所迷惑。团队通过可视化实验证实了这一点：经过训练的系统，能将同一人不同角度的多张脸映射到特征空间中紧密相邻的区域，而不同人的脸则清晰分散——这种“聚同排异”的效果，正是身份认知准确性的直观体现。

三、词典里藏着什么秘密

研究团队还做了一件有趣的事：他们打开了训练好的那本“人脸角度百科”，发现其中隐藏着一个令人惊喜的规律。

他们将五种典型人脸朝向（正面、左侧、右侧、仰头、低头）输入系统，观察每种朝向最常“激活”（即最常被查询）的词典条目编号。结果发现，正面朝向总是倾向于激活第3、562、2806号条目，仰头朝向则偏爱第2、704、1856号条目，左侧、右侧和低头也各有其固定偏好的条目集合。

这一发现表明，词典在训练过程中自发形成了“角度分工”：不同的条目各自负责表达特定角度下的面部特征，不同朝向的面孔会自动找到属于自己的“专属词条”来完成描述。这种自发涌现的结构，正是系统能稳定处理各角度人脸的底层原因。研究团队并未提前预设这种分工，它完全是从数据中自然学习而来的。

词典的大小也需要精细调节。就像百科全书，条目太少则无法描述丰富的面部细节，条目太多又会导致冗余与混乱。团队尝试了从1024到32768个不同数量的条目，发现4096个条目时效果达到最佳，继续增加则性能提升趋于平缓。因此，4096成了最终系统的标准配置。

四、训练数据：让AI见识“真正动起来的脸”

再精妙的算法，若没有合适的训练数据，也是巧妇难为无米之炊。FaithfulFaces的另一项重要贡献，是专门为此任务构建了一套高质量训练数据集。

这件事说起来简单，做起来却颇费周章。普通人脸视频数据集中，大量内容其实是主播静坐说话或受访者端坐采访——这些视频里头部运动幅度小，转动角度有限。用此类数据训练的系统，面对真正的大幅度头部运动时依然会捉襟见肘。

为此，团队设计了一套四步数据筛选流程。第一步是人脸检测：剔除无人脸或出现多人脸的视频，因为系统专注于单人场景。第二步是关键的姿态估计：对每段视频的每一帧，使用专用工具测量人脸的仰俯、转动和倾斜角度，然后计算整段视频中这三个角度最大值与最小值之差的总和，以此作为该视频“面部姿态变化幅度”的指标。

为了确定多大的变化幅度才算“够用”，团队先随机抽取2000段视频进行人工标注。标注标准是：视频中的人脸必须至少经历一次从正面到侧面（或反之）的转变，或有明显的上下点头动作，才算合格。通过统计分析，他们将合格阈值定为120——即三个角度变化幅度总和超过120度的视频，才被认为姿态变化足够丰富。经过这一步，大量“几乎不动”的视频被淘汰。

第三步是为每段合格视频生成文字描述。团队使用阿里巴巴的多模态大模型Qwen2.5-VL自动生成描述，重点涵盖人物的外貌、动作和背景环境，再经人工校对润色，确保准确性。第四步则是将视频本身、文字描述、从中截取的人脸图片及对应的角度数据，打包整理成完整的训练样本。

整个流程最终产出51,624条高质量样本，每条都保证了充足的面部姿态变化。正是这些“见过世面”的数据，让FaithfulFaces的身份对齐器得以真正学会应对复杂的头部运动。

五、站在巨人肩膀上，再往前走一步

FaithfulFaces并非从零搭建全新系统，而是在一个已相当强大的开源视频生成模型“VACE-14B”基础上进行改造增强。可以将VACE理解为一台造好的高性能汽车，而FaithfulFaces所做的是为其加装一套更精准的导航系统，专门负责在复杂路况（即复杂的面部运动场景）下提供更准确的指引。

技术上，这种改造通过名为“LoRA”的轻量级微调方式实现。它只修改模型中极少部分参数，就能让系统适应新任务，既保留了原模型强大的视频生成能力，又赋予了其识别与维持人脸身份的新本领。训练在32块英伟达H20显卡上进行，共5000步，批量大小为32，身份对齐器的独立批量大小则设为1024，以确保对比学习能获得足够多的样本对来完成充分的姿态对齐训练。

在实际使用阶段，用户仅需提供一张人脸照片。系统会自动检测照片中的人脸角度，连同图像一起送入训练好的对齐器，生成一个全局面部姿态特征向量，再将此向量与文字描述一并输入视频生成模型，最终产出一段能在各种头部动作下保持人脸身份稳定的视频。

六、与同行一较高下：数字说话

研究团队在30个不同人物身份与20种不同文字描述（涵盖拳击、舞蹈、转身、芭蕾、演讲等大幅头部运动场景）的组合下，共生成了600段视频，并与市面主流方法进行了全面比较。对比对象包括两款商业产品（Vidu和Kling）以及八款开源模型，覆盖了该领域几乎所有主流方案。

评测使用四个指标。其中两个用于衡量生成视频中人脸与原始参考照片的相似度，分别基于ArcFace和CurricularFace两套人脸识别特征空间计算，数值越高表明身份保真度越好。第三个指标FID衡量生成画面的整体视觉质量，数值越低画面越真实清晰。第四个指标CLIPScore衡量视频与文字描述的匹配度，数值越高说明内容越符合要求。

结果相当清晰：FaithfulFaces在四项指标上全部位列第一。在最关键的两个人脸身份相似度指标上，FaithfulFaces分别达到0.568和0.542，而排名第二的Phantom仅为0.484和0.456，差距约17%至19%。商业产品Kling得分0.447和0.416，差距更为明显。在画面质量指标FID上，FaithfulFaces以164.24大幅领先，最接近的HunyuanCustom为187.32，Kling为194.80。文字匹配度方面，FaithfulFaces得到33.93，与Kling并列最高，多数开源方法则在30出头。

视觉比较的差异更为直观。ConsisID在拳击视频中间出现明显面部结构扭曲；VACE和Kling在人物激烈运动时存在面部细节流失；Phantom等模型生成的画面中，主角五官随着动作逐渐“漂移”，至视频结尾已与参考照片相去甚远。而FaithfulFaces生成的视频里，人物在整个动作过程中始终保持清晰的面部结构与一致的细节，无论在拳击、舞蹈还是转身场景中，表现都更为稳定。

七、非正面输入时的鲁棒性：一项意外收获

团队还额外测试了一个现实常见却易被忽视的场景：如果用户提供的参考照片本身就不是正面照，而是一张侧脸，结果会怎样？

结果显示，对于未配备FaithfulFaces的基准系统以及最强竞争对手Phantom而言，非正面输入导致的性能下滑超过50%——身份相似度几乎腰斩。而FaithfulFaces在同样条件下，性能下滑被控制在25%以内。从视觉上看，当输入非正面照时，Phantom和基准系统生成的视频人脸几乎完全崩塌，而FaithfulFaces仍能维持相对稳定的身份一致性。

这说明，姿态共享字典的设计不仅帮助系统在视频生成中应对头部运动，还顺带提升了其对“非标准输入”的容错能力——这是一个意外但相当实用的额外收益。

团队还测试了欧拉角估计存在误差时的影响。发现误差在±15度范围内，性能基本不受影响；只有当误差超过±20度时，才开始出现明显下滑。考虑到主流人脸角度估计工具的精度通常远优于±15度，这意味着系统在实际应用中对角度估计噪声具备足够的鲁棒性。

归根结底，FaithfulFaces所做的是为AI视频生成系统安装了一套“空间想象力”——让它不再死记硬背一张正面照片，而是能从单张照片出发，推断出这张脸在各角度下应有的样貌，并在视频生成全程贯穿这个更丰富的面部认知。这种能力对现实视频生成场景意义重大，因为真实的人物运动几乎不可能只有正面静止状态。

对普通用户而言，这意味着未来用AI生成“自己”的视频时，无论视频中的你在打拳、跳舞还是转身，你的脸都能保持本来的样子，而非变成一个陌生人。对内容创作者、影视从业者与广告设计师来说，这意味着AI生成的人物视频终于在动态场景下，跨近了可用的质量门槛。据悉，该研究的代码与数据集处理流程也计划开源，感兴趣的研究者与开发者可通过论文编号arXiv:2605.04702获取完整论文，深入了解技术细节。

Q&A

Q1：FaithfulFaces方法在处理非正面输入照片时效果如何？
A：当用户提供的参考照片是侧脸而非正面照时，FaithfulFaces的人脸身份相似度下降约25%。相比之下，竞争对手Phantom及无此模块的基准系统在同样条件下性能下降超过50%，生成视频中的面部甚至近乎完全崩塌。这表明姿态共享字典的设计在提升对非标准输入的容错性方面效果显著。

Q2：FaithfulFaces训练数据集是如何筛选出来的？
A：研究团队设计了四步流程：首先通过人脸检测过滤掉无人脸或多人脸视频；其次使用角度估计工具计算每段视频中头部三个维度（仰俯、左右转动、倾斜）的总变化幅度，仅保留变化总和超过120度的视频；随后使用大模型生成文字描述并经过人工校对；最后将视频、描述、人脸截图及角度数据打包，整理出共51,624条包含充足面部姿态变化的完整训练样本。

Q3：FaithfulFaces与Kling等商业产品相比优势体现在哪里？
A：在人脸身份相似度的两个核心指标上，FaithfulFaces分别达到0.568和0.542，而Kling为0.447和0.416，差距约15%至20%。在画面质量指标FID上，FaithfulFaces以164.24明显优于Kling的194.80。在拳击、舞蹈、转身等大幅头部运动的视觉对比中，FaithfulFaces生成的视频面部结构保持清晰稳定，而Kling则存在明显的面部细节流失问题。