字小说变104秒短剧:自动生成第12段翻车实测
AI短剧赛道,今年彻底引爆了。
抖音、快手涌现大量AI生成的短剧账号,单条播放量动辄百万。有人靠AI短剧月入数万,有人把成片打包卖给MCN。成本?一个人,一台电脑,零拍摄。
我一直在琢磨一个问题——这条路到底好不好走?真正的卡点在哪?所以找了个开源工具,亲自跑了一遍完整链路:让大模型写一篇言情小说,再用AI把小说逐帧转化成短剧视频。
结果:104秒的成片确实做出来了,但过程远没有想象中顺畅。
先看最终成品——
从上传小说到拿到成片,实际耗时约2小时(大部分时间花在等视频模型排队)。API费用大约十几块钱。一个人,零拍摄,零剪辑。
下面是完整的实战复盘。
先看全貌:从小说到视频要经过几步
动手之前,先看一张全流程图,建立整体认知:
8步,全自动跑通。只需在关键节点点“继续”。但每一步都可能翻车——后面会详解。
工具:ArcReel
GitHub:github.com/ArcReel/Arc…
开源的AI视频生成工作台。扔一篇小说进去,它帮你拆剧本、定角色、画分镜、生视频、合成成片。
底层由多个AI Agent协作——一个负责提取角色,一个负责写剧本,一个负责调图像API,一个负责调视频API。就像一个微型剧组,各司其职,你只需喊action就行(理想状态下)。
支持的供应商:Gemini、火山方舟、阿里百炼、OpenAI等。图像和视频模型可以自由组合。
第一步:让AI写小说
手上没有现成小说,直接让大模型帮忙生成了一篇。
指令大概:写一篇4000字左右的现代言情短篇,海岛背景,治愈向,男女主要明确的外貌描写和标志性道具。
它给出了《风过山海,我只为你停留》——女海洋研究员+远洋大副,台风后相遇,海螺吊坠作为信物。3907字,刚好够切4集。
(讲真,写得还行,比我自编强多了)
第二步:部署ArcReel + 配置模型
Docker部署,四行命令搞定:
打开 localhost:5173 就能用。
关键在配置。要为系统接入三样东西:
- 文本模型——负责理解小说、撰写剧本
- 图像模型——负责绘制角色、设计分镜
- 视频模型——负责把静态分镜转为动态视频
配好key,选好模型,就能启动了。
第三步:扔小说进去,AI自动干活
把txt上传,选择“剧集动画模式”。
接下来AI就开始全自动推进——
提取素材:自动读完小说,提取出5个角色、9个场景、12个道具。每个都附带一句话的外貌/特征描述。
自动分集:3907字切成4集,每集约1000字。它不是死板截断,而是找情绪高点下刀——比如第一集结尾是“她告诉自己,只是路过救了一个人,仅此而已。”
看到这种切法时有点意外——这不就是网文的“章末钩子”技法吗?AI居然自己学会了。
生成26张设计图:为每个角色、场景、道具绘制一张“标准照”。
这一步是关键。打个比方——就像拍电影前先做定妆照。有了定妆照,后面不管拍哪场戏,化妆师都能把演员还原成一样的外观。AI也是这个逻辑,没有参考图的话,同一个角色每次画出来都是不同的脸。
生成分镜图:第一集13个场景,每个场景画一张分镜。
生成视频:以分镜图为起始帧,AI生成4-8秒的动态视频片段。
到这一步,前11段都很顺利——每段提交后等3-5分钟就出结果。
然后第12段,卡住了。
踩过的坑(大概率你也会遇到)
坑1:图像模型的“图生图”能力没开
这是最容易踩的坑。
分镜图需要参考角色设计图来绘制——这叫“图生图”(image-to-image)。但很多图像模型默认只开了“文生图”(text-to-image),需要手动去供应商配置里把图生图能力打开。
选择图生图协议:
火山方舟的坑:创建推理接入点时,Seedream 3.0不支持图生图,得用Seedream 4.0或SeedEdit。阿里百炼也一样,通义万相的不同版本支持的能力不一样。
表现:分镜图生成时报错“不支持图生图”或返回404。
解决:确认图像模型支持image-to-image,在ArcReel设置里把对应能力标签勾上。文生图和图生图走不同的API路径,勾了标签之后如果报404,换一个确认支持的模型版本。
坑2:视频内容审核拦截(标题里说的“翻车”就是它)
13段视频跑完11段,有2段死活报“生成失败”。
排查了半天——剧本里写了“男主躺在礁石上一动不动,脸色苍白”。视频模型的安全审核觉得这像“死亡/暴力”场景,直接拒绝生成。
AI不懂“剧情需要”这四个字。它只会照字面判断:一动不动+脸色苍白=疑似死亡=拒绝。
这个坑不分平台,火山方舟、阿里百炼、OpenAI都有类似机制。
解决:改措辞。“一动不动、脸色苍白”→“闭目休息、胸膛轻轻起伏”。光线从冷色改暖色。让画面看起来是“在睡觉”而不是“已经凉了”。
教训:写AI短剧剧本和写给人看的剧本是两码事——得时刻想着审核机器人也在读。
做得好的地方:AI对话助手
ArcReel有个让人眼前一亮的设计——项目里内置了一个AI对话框。
就像有一个了解整个项目的私人客服。随时问它:“现在卡在哪一步了?”“为什么这个道具生成失败了?”“下一步该做什么?”
它会看项目状态、读配置、分析报错日志,然后告诉你具体该怎么办。
比如遇到图生图报错的时候,问它“为什么分镜图生成失败”,它直接说——模型没勾选图生图能力,到设置页的哪个位置去改。
不用自己翻文档、翻issue。整个流程下来,大部分问题都是靠问这个对话框解决的。
真实的不足
说完好的,也得说说问题。
配置门槛高。 各家供应商的模型能力、API路径、参数格式都不一样。报错信息有时很模糊——“生成失败:0”,根本不知道是网络问题、配置问题还是模型问题。(这个0是什么意思啊喂)
干等没进度条。 视频生成提交后就是一片空白,不知道是在排队还是已经挂了。超时默认10分钟,有些模型慢的要15-20分钟——只能看着它报超时然后再试一次。
画面比例会跑偏。 设置的是9:16竖屏,实际输出1280×720横屏。视频模型没遵守比例设置,得后期自己裁。
角色脸会飘。 虽然有设计图做参考,但AI画的图仍然不是100%像同一个人——发型长度、五官比例在不同场景间有细微变化。比真人拍差远了,但比纯文生图好很多。
最后一个问题:没有声音
打开成片,104秒,静音。
这不是bug——ArcReel目前没有内置TTS配音模块。它的设计思路是让视频模型自己带音频输出(比如Google Veo 3生成视频时自带对白和环境音),但大部分国内视频模型还不支持。
所以要么——
- 换支持音频输出的视频模型(贵,Veo 3按秒计费)
- 自己接TTS服务配音(需要折腾)
- 用免费的edge-tts本地生成多角色对白再混音
想跑通这条链路?3件事先确认好
做完这三件事,再上传小说。否则你也会像我今天一样——跑到一半翻车,还不知道为什么。
下一篇:会用免费的edge-tts给这条视频配上5个不同声线的角色对白——成本0元,效果比你想的好。配音方案下篇见。










