视频能PS了？阿里视频大模型拯救废片，我用它捏脸、换角色、改剧情

2026-05-03阅读 0热度 0

其他

阿里通义实验室发布Wan2.7-Video：一句话改视频，全模态编辑时代来了

智东西
作者王涵
编辑心缘

4月3日，阿里通义实验室正式推出了视频创作大模型Wan2.7-Video。这款模型最大的看点，在于它支持文本、图像、视频、音频全模态输入，并且实现了对视频画面结构、剧情走向、局部细节乃至时序变化的全面编辑能力。

简单来说，就是“一句话改视频”。模型能智能保持光影与材质的统一性，还允许用户搭配多张图像作为参考输入，让创意落地更精准。

更值得一提的是，Wan2.7-Video引入了一套视频续写与尾帧控制的联合机制。这意味着，用户在让视频故事延续下去的同时，可以直接指定故事的结尾画面，实现了创作过程“从哪来到哪去”的全程可控。此外，模型支持最多5个视频主体作为参考，全模态素材调用能力相当强悍。

在运镜调度上，用户只需输入一段简短的文字描述，模型便能自动完成智能剧本创作和分镜调度。更专业的是，它还能根据不同的电影类型（比如西部片或科幻片），自动匹配相应的色彩和光影风格，颇具导演思维。

为了验证其实用性，我们上手体验了它的角色替换功能：尝试将一段原视频中的欧美男生，替换为参考图中的中国男生。

效果如何？替换后的视频，背景环境和人物的服装、姿态都与原视频保持了一致，人物的口型和台词也毫无违和感地保留了下来。唯一细微的调整是，新人物服装上的光影效果略有压暗，以适应新主体的融入。最关键的是，视频中生成的中国男生形象，与提供的素材照片相似度很高。

原视频：

修改后视频：

体验链接：

阿里云百炼：

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/all?providers=wan

万相正式：

https://tongyi.aliyun.com/wan

在Wan2.7-Video里，编辑视频可以像修图一样直观。用户通过自然语言指令，就能对视频画面的局部进行精准调整，而编辑后的区域在光影与材质上能与原视频无缝融合，几乎看不出修改痕迹。

具体能做什么？指令式增删元素、替换物体、修改物体属性都不在话下。它还能参考用户提供的图像内容，进行精准的元素添加。例如，保持人物动作不变，将背景从夏日艳阳一键转换为深秋萧瑟，或者直接改变整个视频的艺术画风。

对于已有的视频素材，模型支持通过指令描述，对剧情内容和拍摄手法进行深度修改。

在角色处理上，Wan2.7允许用户在不改变角色原有身份和场景的前提下，对其行为、台词甚至拍摄视角进行修改，实现高效的二次创作。

比如，修改角色所说的台词内容，模型会同步调整角色的情绪、口型以匹配新台词，并保持音色统一。也可以只改变角色的行为逻辑，例如“其他保持不变，让坐在沙发上的女生变成站着打游戏”。

同时，模型支持对同场景中角色的风格、服饰、道具等进行修改，并保持其原有姿势。在拍摄层面，Wan2.7支持修改相机参数，如机位、视角、景别、镜头类型、焦距等，相当于拥有了一个虚拟摄影团队。

此外，Wan2.7还能保留原视频的动作序列或镜头运动，直接生成全新场景；或者参考其他视频的风格化表现、粒子特效材质；甚至保留原视频的色彩风格与环境，仅增加新的剧情段落。

本次升级的重点之一，是优化了“视频续写+尾帧控制”功能。这使得Wan2.7能同时实现对剧情走向和画面构图、光影的精准控制，兼顾了动态的延续性与结构的可控性。

用户只需描述后续剧情，模型就能在保证画面连贯的前提下，延展故事、变换机位或调整叙事节奏。这有效解决了传统视频生成中首尾帧衔接生硬的“刹车感”，以及单纯续写时可控性差的痛点。

在参考素材方面，Wan2.7支持图像、视频、音频等多模态参考，且最多支持5个视频主体作为参考。模型还对多宫格参考图（如漫画分格）进行了针对性优化，能够直接将静态漫画转换成动态动画片。

据通义实验室视频团队透露，Wan2.7对海量专业剧本进行了深度学习，这使得模型掌握了编排不同戏剧核心的内在规律。

因此，模型能根据一句话提示，自动构建出符合戏剧逻辑的起承转合，并生成节奏精准、镜头语言丰富的专业级分镜脚本。在情绪表达上，Wan2.7不仅能表现高兴、悲伤、愤怒等基础情绪，还能演绎超过40种细分表情，让角色表演更具层次感。

更进一步，Wan2.7建立了一种新的映射关系：以“戏核”（故事核心）作为高级指令，直接驱动光影、摄影与色彩等底层参数的生成。用户只需指定影片类型，如“西部片”或“科幻片”，即可自动获得与之高度契合的光影氛围与色彩风格。

在动画风格化方面，该模型将艺术风格解构为整体造型、线条轮廓、光影材质、空间感等多个独立维度。用户可以像搭积木一样自由组合这些维度，创造出独一无二的视觉风格，并确保在多镜头之间保持高度一致性。

拍摄技巧上，Wan2.7支持推、拉、摇、移、跟、升降等数十种基础运镜手法，更能执行希区柯克式变焦、上升揭示、左移右摇、手持跟拍等复合摄影技巧，为视频注入电影级的动感与张力。

过去，想要修改视频中的任何细节，往往意味着推倒重来，效率低下且难以保证一致性。Wan2.7通过底层的效率优化，显著降低了专业视频创作的门槛，让复杂编辑变得轻松可控。

值得注意的是，通义实验室语音团队在音频预训练、数据及理解方面提供了关键支持，显著提升了模型生成声音的真实感、自然度、音乐旋律以及与画面的同步质量。

而虎鲸文娱摩酷实验室则贡献了其在影视领域知识和角色表演方面的专业积累，进一步提升了模型的影视级表现力。

双方的深度合作揭示了一个明确趋势：当下高质量视频生成的竞争，早已不再是视觉模型的独角戏。它正演变为对音画协同、表演逻辑和影视美学的综合考验，是一场真正意义上的多模态、跨领域协同作战。