字小说变104秒短剧：自动生成第12段翻车实测

2026-06-14阅读 0热度 0

其他

AI短剧赛道，今年彻底引爆了。

抖音、快手涌现大量AI生成的短剧账号，单条播放量动辄百万。有人靠AI短剧月入数万，有人把成片打包卖给MCN。成本？一个人，一台电脑，零拍摄。

我一直在琢磨一个问题——这条路到底好不好走？真正的卡点在哪？所以找了个开源工具，亲自跑了一遍完整链路：让大模型写一篇言情小说，再用AI把小说逐帧转化成短剧视频。

结果：104秒的成片确实做出来了，但过程远没有想象中顺畅。

先看最终成品——

从上传小说到拿到成片，实际耗时约2小时（大部分时间花在等视频模型排队）。API费用大约十几块钱。一个人，零拍摄，零剪辑。

下面是完整的实战复盘。

先看全貌：从小说到视频要经过几步

动手之前，先看一张全流程图，建立整体认知：

8步，全自动跑通。只需在关键节点点“继续”。但每一步都可能翻车——后面会详解。

工具：ArcReel

GitHub：github.com/ArcReel/Arc…

开源的AI视频生成工作台。扔一篇小说进去，它帮你拆剧本、定角色、画分镜、生视频、合成成片。

底层由多个AI Agent协作——一个负责提取角色，一个负责写剧本，一个负责调图像API，一个负责调视频API。就像一个微型剧组，各司其职，你只需喊action就行（理想状态下）。

支持的供应商：Gemini、火山方舟、阿里百炼、OpenAI等。图像和视频模型可以自由组合。

第一步：让AI写小说

手上没有现成小说，直接让大模型帮忙生成了一篇。

指令大概：写一篇4000字左右的现代言情短篇，海岛背景，治愈向，男女主要明确的外貌描写和标志性道具。

它给出了《风过山海，我只为你停留》——女海洋研究员+远洋大副，台风后相遇，海螺吊坠作为信物。3907字，刚好够切4集。

（讲真，写得还行，比我自编强多了）

第二步：部署ArcReel + 配置模型

Docker部署，四行命令搞定：

打开 localhost:5173 就能用。

关键在配置。要为系统接入三样东西：

文本模型——负责理解小说、撰写剧本
图像模型——负责绘制角色、设计分镜
视频模型——负责把静态分镜转为动态视频

配好key，选好模型，就能启动了。

第三步：扔小说进去，AI自动干活

把txt上传，选择“剧集动画模式”。

接下来AI就开始全自动推进——

提取素材：自动读完小说，提取出5个角色、9个场景、12个道具。每个都附带一句话的外貌/特征描述。

自动分集：3907字切成4集，每集约1000字。它不是死板截断，而是找情绪高点下刀——比如第一集结尾是“她告诉自己，只是路过救了一个人，仅此而已。”

看到这种切法时有点意外——这不就是网文的“章末钩子”技法吗？AI居然自己学会了。

生成26张设计图：为每个角色、场景、道具绘制一张“标准照”。

这一步是关键。打个比方——就像拍电影前先做定妆照。有了定妆照，后面不管拍哪场戏，化妆师都能把演员还原成一样的外观。AI也是这个逻辑，没有参考图的话，同一个角色每次画出来都是不同的脸。

生成分镜图：第一集13个场景，每个场景画一张分镜。

生成视频：以分镜图为起始帧，AI生成4-8秒的动态视频片段。

到这一步，前11段都很顺利——每段提交后等3-5分钟就出结果。

然后第12段，卡住了。

踩过的坑（大概率你也会遇到）

坑1：图像模型的“图生图”能力没开

这是最容易踩的坑。

分镜图需要参考角色设计图来绘制——这叫“图生图”（image-to-image）。但很多图像模型默认只开了“文生图”（text-to-image），需要手动去供应商配置里把图生图能力打开。

选择图生图协议：

火山方舟的坑：创建推理接入点时，Seedream 3.0不支持图生图，得用Seedream 4.0或SeedEdit。阿里百炼也一样，通义万相的不同版本支持的能力不一样。

表现：分镜图生成时报错“不支持图生图”或返回404。

解决：确认图像模型支持image-to-image，在ArcReel设置里把对应能力标签勾上。文生图和图生图走不同的API路径，勾了标签之后如果报404，换一个确认支持的模型版本。

坑2：视频内容审核拦截（标题里说的“翻车”就是它）

13段视频跑完11段，有2段死活报“生成失败”。

排查了半天——剧本里写了“男主躺在礁石上一动不动，脸色苍白”。视频模型的安全审核觉得这像“死亡/暴力”场景，直接拒绝生成。

AI不懂“剧情需要”这四个字。它只会照字面判断：一动不动+脸色苍白=疑似死亡=拒绝。

这个坑不分平台，火山方舟、阿里百炼、OpenAI都有类似机制。

解决：改措辞。“一动不动、脸色苍白”→“闭目休息、胸膛轻轻起伏”。光线从冷色改暖色。让画面看起来是“在睡觉”而不是“已经凉了”。

教训：写AI短剧剧本和写给人看的剧本是两码事——得时刻想着审核机器人也在读。

做得好的地方：AI对话助手

ArcReel有个让人眼前一亮的设计——项目里内置了一个AI对话框。

就像有一个了解整个项目的私人客服。随时问它：“现在卡在哪一步了？”“为什么这个道具生成失败了？”“下一步该做什么？”

它会看项目状态、读配置、分析报错日志，然后告诉你具体该怎么办。

比如遇到图生图报错的时候，问它“为什么分镜图生成失败”，它直接说——模型没勾选图生图能力，到设置页的哪个位置去改。

不用自己翻文档、翻issue。整个流程下来，大部分问题都是靠问这个对话框解决的。

真实的不足

说完好的，也得说说问题。

配置门槛高。 各家供应商的模型能力、API路径、参数格式都不一样。报错信息有时很模糊——“生成失败：0”，根本不知道是网络问题、配置问题还是模型问题。（这个0是什么意思啊喂）

干等没进度条。 视频生成提交后就是一片空白，不知道是在排队还是已经挂了。超时默认10分钟，有些模型慢的要15-20分钟——只能看着它报超时然后再试一次。

画面比例会跑偏。 设置的是9:16竖屏，实际输出1280×720横屏。视频模型没遵守比例设置，得后期自己裁。

角色脸会飘。 虽然有设计图做参考，但AI画的图仍然不是100%像同一个人——发型长度、五官比例在不同场景间有细微变化。比真人拍差远了，但比纯文生图好很多。

最后一个问题：没有声音

打开成片，104秒，静音。

这不是bug——ArcReel目前没有内置TTS配音模块。它的设计思路是让视频模型自己带音频输出（比如Google Veo 3生成视频时自带对白和环境音），但大部分国内视频模型还不支持。

所以要么——

换支持音频输出的视频模型（贵，Veo 3按秒计费）
自己接TTS服务配音（需要折腾）
用免费的edge-tts本地生成多角色对白再混音

想跑通这条链路？3件事先确认好

做完这三件事，再上传小说。否则你也会像我今天一样——跑到一半翻车，还不知道为什么。

下一篇：会用免费的edge-tts给这条视频配上5个不同声线的角色对白——成本0元，效果比你想的好。配音方案下篇见。