即梦AI爆款短剧制作全流程,零基础入门教程
目前即梦AI视频 3.0 横空出世,给 AI视频界又带来了小小的震撼!其中最为突出的就是它的镜头切换功能。
以前要做分镜切换,得自己一张张重新出图,再逐帧生成视频。比如想让同一个人物在不同镜头里形象更丰满,至少得先构思4个分镜,然后输出4张图,最后用这4张图分别去图生视频。现在倒好,有了即梦视频3.0模型,只需要出第一张图,在图生视频的提示词里直接写清楚4个分镜的需求,系统就能一次性给你生成4个分镜效果。这效率,直接拉满了。
不过话说回来,目前的多镜头切换在人物一致性上还有改进空间。下面这个是我制作的短剧效果,效果还算粗糙,主要是想带大家走通制作短剧的流程,顺便学会即梦视频 3.0 怎么用。好了,接下来我们一步步拆解,开始制作。
剧本
在剧本创作上,如果只有一个方向,还没什么具体想法,可以多跟 DeepSeek 或 ChatGPT 聊聊,找找灵感。
例如,我们可以这样问:
“我想制作一个 3 分钟的 AI 短剧,主题是‘出道’,麻烦提供一下思路给我。”
DeepSeek 在思考一阵后,通常会给出一个完整的剧本。先看看合不合适,不合适再让它重新生成就好。
当然,这种方式生成的剧本可控性较差,有时会过于天马行空,跟预期差得比较远。但这恰恰是我们需要的——当你没思路的时候,顺着它给出的剧本,脑海里会慢慢形成一个框架,清楚大概要做什么样的短片、讲什么样的故事。等想清楚了,再具体跟 AI 说,让它帮我们完善细节。
例如,我们可以这样写提示词:
“我想制作一个写实类型的短片,剧情主线是这样的:早晨,一个女孩在床边呆呆坐着,然后切到城市外景,城市从白天慢慢变成了黑夜,再切回女孩的场景,女孩展示悲伤的表情,然后掩面哭了起来。然后切换到回忆,并出现旁白:‘我是小美,之前是一个女模特’,画面切换到小美在走地毯的样子。旁白:‘后面我遇见了他,小帅’,画面切换到小帅和小美在咖啡厅对着坐着喝咖啡。旁白:‘但,他现在选择了其它女孩’,画面模糊,只看到一个男的和一个女的背影,越走越远。旁白:‘不行,我不能这样!’,女孩擦干眼泪,站起来,跑出房间。旁白:‘我不能被过去束缚住’,镜头切换到城市夜景,女孩在街道上奔跑。请保留主线内容,帮我润色下。”
下面是完整的回复,感觉写得还是挺不错的:
片头:清晨微光透过窗帘。 女孩静静坐在床沿,神情恍惚,眼神空洞。 镜头切出,城市街景浮现。 街道上车流渐渐熙攘,从清晨走向午后, 再缓缓沉入夜色。回到室内: 夜幕低垂,房间昏暗。 女孩一动不动,终于低头,泪水悄然滑落。 她捂住脸,肩膀微微颤抖。旁白开始,进入回忆片段: “我是小美,曾经是一名模特。” 画面切至红毯,灯光闪耀,小美笑容自信,步伐坚定。“后来,我遇见了他——小帅。” 画面转为温馨咖啡馆,两人面对面而坐, 轻声交谈,笑意藏不住地从眼中溢出。“可他,最后选择了另一个人。” 镜头模糊,只见一男一女并肩走远, 背影渐行渐远,消失在灯火深处。“我不能就这样沉沦下去!” 小美猛地抬头, 擦去泪痕,深吸一口气, 起身,推门而出。画面切换: 城市夜晚,霓虹闪烁。 小美奔跑在街头,风吹起发丝, 步伐越来越坚定。旁白结束: “我不该被过去困住。现在,我要重新开始。”
分镜
剧本确认后,就开始制作分镜。直接输入以下提示词:
“帮我拆解分镜,输出markdown格式,第一列是镜号,第二列是景别,第三列是场景,第四列是运镜,第五列是时长,第六列是画面内容,第七列是旁白,第八列是音乐。”
| 镜号 | 景别 | 场景 | 运镜 | 时长 | 画面内容 | 旁白 | 音乐 |
|---|---|---|---|---|---|---|---|
| 01 | 中景 | 卧室清晨 | 静止镜头 | 5s | 女孩坐在床沿,双手垂在膝上,目光呆滞 | 无 | 清晨鸟鸣+轻微钢琴音 |
| 02 | 广角 | 城市外景 | 时间推移延时 | 8s | 城市从白昼到夜幕的变化,车流、人群、天色变化 | 无 | 环境声→夜晚背景乐渐起 |
| 03 | 特写 | 卧室夜晚 | 缓慢推近 | 5s | 女孩坐在原位,眼神哀伤,泪水从眼角滑落 | 无 | 缓慢哀伤的钢琴旋律 |
| 04 | 特写 | 卧室夜晚 | 缓慢摇移 | 4s | 女孩掩面而泣,肩膀轻轻颤抖 | 无 | 同上 |
| 05 | 黑场+转场进入回忆 | - | 淡入 | 2s | 黑场后慢慢淡入红毯画面 | “我是小美,曾经是一名模特。” | 节奏轻快时尚音乐 |
| 06 | 中远景 | 走红毯 | 跟拍推进 | 5s | 小美身穿礼服,自信地走在红毯上 | 无 | 同上 |
| 07 | 中景 | 咖啡厅 | 静止镜头 | 5s | 小美与小帅坐在窗边,对视微笑,气氛温暖 | “后来,我遇见了他——小帅。” | 柔和咖啡馆氛围乐 |
| 08 | 远景 | 街头夜晚 | 缓慢拉远 | 4s | 一对男女背影并肩走远,最终消失在人群中 | “可他,最后选择了另一个人。” | 旋律低落转悲伤 |
| 09 | 特写 | 卧室 | 快速推近 | 3s | 小美猛然抬头,眼神变得坚决 | “我不能就这样沉沦下去!” | 节奏开始提升 |
| 10 | 中景 | 卧室门口 | 跟拍 | 4s | 小美擦干泪水,快速起身,跑出房间 | 无 | 奔跑节奏鼓点渐入 |
| 11 | 广角 | 街道夜景 | 横移跟拍 | 6s | 小美奔跑在灯光斑驳的街道上,身影轻盈坚定 | “我不该被过去困住。现在,我要重新开始。” | 励志节奏+逐渐增强的配乐 |
确定人物形象
分镜确认后,先别急着出图。为了保持人物一致性,我们需要先出人物图。让 AI 给出人物的描述,提示词:
“麻烦提供下小美的人物提示词,我希望她是一位中国女性,用一段话进行描述,并提供中文和英文的版本。”
AI 回复:
小美是一位25岁的中国女性,曾是模特,拥有高挑匀称的身材与冷白的肤色,五官柔和精致。她留着自然披散的黑色长发,发梢微卷,偶尔挽成低马尾,展现出恬静而独立的气质。她的穿搭简洁而时尚,常见浅色针织衫或柔顺长裙,低调却不失高级感。平日妆容清淡,突出自然轮廓与神情。虽然外表优雅疏离,但她的眼神里藏着层层情绪:失落、挣扎、思念与坚定,像是一段未完待续的故事,等待被发现。她不张扬,却极具镜头表现力,是那种镜头越靠近越让人动容的女性角色。
Xiaomei is a 25-year-old Chinese woman and a former fashion model. She has a tall, slender frame and fair, porcelain-like skin that highlights her refined and delicate facial features. Her long black hair falls naturally in soft wa ves, sometimes tied in a low ponytail, giving her a calm and composed elegance. Her style is minimalist yet sophisticated—often seen in light knit sweaters or flowing dresses, exuding quiet confidence. She wears light, natural makeup that enhances her subtle expressions. While she appears graceful and reserved on the outside, her eyes reveal a complex inner world—sadness, longing, inner conflict, and eventually, determination. She’s not one to demand attention, but the camera loves her—her presence deepens the longer you watch her, making her perfect for emotional, story-driven scenes.
中文提示词可以直接放入即梦进行生成。选择“图片生成”,填入提示词,生图模型选择“图片 3.0”,清晰度选择“标清 1K”,然后点击“立即生成”。
这里我们选择喜欢的那张即可。小帅的人物形象同理,用同样的方式获取。
人物一致性
关于人物的一致性问题,更多依赖于你选择的出图平台。在可灵中,你可以选择“可图 1.5”,然后上传参考图,选择“人物长相”;在即梦中,可以选择“图片生成”,然后选择“导入参考图”,再选择“人像写真”;在 Midjourney 的 6.0 和 6.1 版本中,可以使用“–cref”进行人像参考,到了 7.0 版本,则换成“–oref”。
但由于以上工具的参考都是单图,一致性相对一般。如果需要更好的效果,可以考虑 SD 的训练 Lora,或者可灵中的“定制模型”,这样就能参考多张图片。或者,也可以使用换脸工具,比如 FaceFusion。
不过,以上方式也未必能保证完全一致。这里有一个取巧的方法:作为亚洲人,我们对欧美或非洲人脸多少有些脸盲——即便达不到百分百相似,观感上也会觉得很像。这一点在文生视频中尤其重要。
出图
镜号1
之前我们已经制作完成分镜表,现在直接让 AI 根据每个镜号出图。例如镜号1,我们可以这样写提示词:
“麻烦提供镜号 1 的提示词给我,需要中文和英文两种。”
AI 回复:
中文提示词(适合国风写实/中文AI平台):写实风格,中国年轻女性,25岁,皮肤白皙,黑色长发自然披散,神情恍惚地坐在床边,身穿米白色针织衫与宽松家居裤,清晨自然光从窗帘透入,卧室布置简洁温暖,床单略显凌乱,构图安静,情绪低落,电影感,摄影风格写实,高清画质。
English Prompt(for Midjourney, GPT-4o, etc.):Realistic style, 25-year-old Chinese woman with fair skin and natural long black hair, sitting blankly at the edge of a bed, wearing a cream knit sweater and loose lounge pants, soft morning sunlight coming through curtains, cozy minimalist bedroom, slightly messy bedsheets, emotional and quiet mood, cinematic atmosphere, high-resolution realistic photography.
由于我用的出图平台是即梦,所以复制中文提示词。选择“图片生成”,填写提示词,生图模型选“图片 3.0”,清晰度选“标清 1K”,图片比例选“16:9”,然后点击“导入参考图”,选择“人像写真”并保存,再点击“立即生成”,即可得到效果图。
镜号2
先看看镜号2的提示词:写实风格,城市外景延时画面,高楼林立,街道车流穿梭,人群活动逐渐减少,天空从蓝天白云缓慢过渡到夕阳橘红,再到夜晚霓虹灯亮起的状态,光影变化自然流畅,拍摄角度为高空俯拍或广角远景,电影感构图,现代都市氛围,时间流逝感强,高清画质。这里包含了动态效果,其实是有问题的。对于这种动态效果,有两种方式:一是首尾帧——出一张清晨场景图,再出一张夜晚场景图,进行首尾帧变化;二是图生视频——仅需一张清晨场景图,通过提示词控制画面,逐渐变成夜晚效果。这里我采用的是第二种方式,因此让 AI 只提供清晨的提示词:写实风格,现代城市清晨,高楼林立,街道空旷或少量通勤人群,天色泛白,晨光柔和从高楼缝隙洒落,街道上略有薄雾,天空带有淡蓝与微橘色调,玻璃幕墙反射晨光,构图广角或高空俯拍,氛围宁静,早晨城市苏醒的感觉,高清画质,电影感。效果图如下。
镜号3
镜号3的人物和场景与镜号1完全一致,因此拿到提示词后,需要将镜号1的生成图片进行“智能参考”。提示词:写实风格,中国年轻女性,25岁,皮肤白皙,长发自然披散,坐在昏暗卧室的床边,眼神哀伤,眼角含泪或泪水滑落,身穿居家服或浅色针织衫,房间仅有一盏微弱的床头灯或从窗外透进的城市夜光,背景虚化,画面静谧压抑,情绪内敛,电影构图,高清画质。选择“图片生成”,填写提示词,导入参考图,选择“智能参考”并保存,再点击“立即生成”,就能获得效果。其他图都可以按此方式生成。
出视频
镜头1
画面内容:女孩坐在床沿,双手垂在膝上,目光呆滞。由于是人物呆住的效果,可以不用出视频,直接使用图片即可。
镜头2
画面内容:城市从白昼到夜幕的变化,车流、人群、天色变化。用的是延时变化效果,把清晨的图片上传上去,在提示词里控制变化即可。提示词:烟雾逐渐消失,天空逐渐变亮,变成中午的样子,然后天空再逐渐变暗,变成傍晚的样子。
镜头3+镜头4
画面内容:镜头3:女孩坐在原位,眼神哀伤,泪水从眼角滑落;镜头4:女孩掩面而泣,肩膀轻轻颤抖。直接利用即梦视频3.0的镜头切换特性,合并在一起。提示词:镜头一:女孩眼神哀伤,泪水从眼角滑落,镜头二:女孩掩面而泣,肩膀轻轻颤抖。
镜头5
画面内容:小美身穿礼服,自信地走在红毯上。这里可以给人物多个镜头切换,显得更具体。提示词:女模特往前走 3s 镜头切至女模特正脸,女模特往前走 6s 镜头切至女模特右侧面脸部特写,女模特往前走。
镜头6
画面内容:小美与小帅坐在窗边,对视微笑,气氛温暖。这种对坐的效果,可以切下正反打镜头。提示词:男女在对视聊天,第2s和第4s,各切下正反打镜头。后面用到的镜头效果跟前面的一致,不再赘述。
剪辑
剪辑方面,主要是将之前出的图片和视频导入,然后排序即可。详细流程再在直播中进行说明。
在配乐方面,首先要了解故事的发展。这里感觉应该是从悲伤到平缓,再到激情。因此,打开 Suno 直接输入提示词:从悲伤到平缓,到激情。
感谢大家能看到这里!
