视频生成模型评测：七款AI用1080条提示词能否做到好看好用又准确？

2026-06-16阅读 0热度 0

知识密集型视频生成 KIVI-Bench

当视频生成模型不再只是娱乐工具，而是被推向科学、医疗、教育这些知识密集型场景，问题一下子就变了——它们还能不能生成事实准确、清晰可用的视频？换句话说，光“好看”还远远不够，还得“靠谱”。

任务对比：从“视觉质量”到“知识密集”

正是瞄准这个被忽视的缺口，研究者首次定义了 「知识密集型视频生成」（KIVI） 这个新任务。它的核心要求很明确：模型必须从简短提示词出发，生成事实准确、用户真能跟着做的视频。为了支撑这个任务，团队构建了包含 1080 条提示词的 KIVI-Bench 评测集，并配套设计了两个自动评价指标——FactP 和 HelpS。研究在 7 款主流模型上跑了一圈，结果真实地暴露了三大系统性短板：实体误描、操作错误和组件错位。

论文标题：Knowledge-Intensive Video Generation
代码仓库：github.com/wcxhimself/KIVI

一个被忽视的空白：视频生成不该只为娱乐存在

过去两年，从 Sora 到 Seedance，视频生成模型在画面质量、运动流畅度和时空一致性上确实进步神速。但话说回来，现有的研究和评测几乎都围着“视频是否好看”打转，很少追问：内容是否准确？过程是否合理？信息是否真的能用？

结果就是，当这项技术开始进入医疗、教育、科学传播、操作指导这些领域时，矛盾立刻暴露了。用户关心的早就不是画面逼真不逼真，而是模型能不能准确表达知识、清晰展示步骤、真正帮人完成任务。问题的核心也就从“能否生成自然流畅的视频”，转向了“能否生成知识可靠且有实际价值的视频”。

这种变化其实揭示了一个明显的错位：比如用户搜索“如何更换汽车轮胎”，他期待的绝对不是一段视觉效果华丽但步骤含糊的视频，更不是自己写完分镜脚本再交给模型逐段生成。更合理的模式是，模型能直接理解意图，输出一段步骤正确、过程清晰、能跟着做的视频。KIVI 正是基于这个判断，把视频生成的评测目标从视觉质量，推向了知识可靠性与用户实用性。

KIVI-Bench：1080 条模拟真实用户场景的提示词

这 1080 条提示词覆盖了 18 个类别，包括汽车维护、健康医疗、电子设备等。它们先由 LLM 扩展，再经过人工去重精筛。每条提示词的构造都遵循五条标准：视频优越性——比文字更直观，比如空间操作和界面导航；事实正确且可核验——实体有公开文档能查证；专有名词有知识挑战性——用具体产品实名，比如“Bostitch 卷笔刀”，而不是泛称“一个卷笔刀”；超越常识——得真懂才行，比如“Omron BP5450 血压计的操作步骤”，光靠日常经验答不上来；贴近真实——表述简短自然，像用户真的会问那样。

自动评估标准：FactP 与 HelpS

传统视觉指标，像图像质量、运动平滑度这些，和人类对内容准确性与帮助性的判断几乎没什么关系。为此，KIVI 设计了两个互补的自动评估标准，各自解决不同的问题。

FactP（事实精度）回答的是“说没说对”。它的思路是先抽取、再验证：让 LLM 从视频中提取出原子化声明，然后逐条判断对错，最后按正确比例计分。

HelpS（帮助性评分）回答的是“能不能照着做”。LLM 从相关性、完整性、清晰度三个维度打分，核心追问很直接：用户能不能仅凭这段视频，就完成所提的任务？两套指标合在一起，才构成一个完整的评价体系。

七款模型“同台应试”

团队评测了 7 款主流系统，覆盖闭源 API（Seedance 2.0、HappyHorse 1.0）、开源短视频生成模型（Wan 2.2、HunyuanVideo 1.5）和开源长视频模型（Helios-Base、LongCat-Video、LongLive 1.0）。

人工制作的视频，FactP 和 HelpS 分别达到了 97.8% 和 81.9%，这个成绩远超当前所有视频生成模型。而在模型比拼中，闭源的短视频模型 HappyHorse 1.0 拿下了最高 FactP（83.2%），Seedance 2.0 则收获了最高 HelpS（66.6%）。开源阵营里表现最好的 Wan 2.2，FactP 和 HelpS 分别是 73.1% 和 48.4%，与闭源模型的差距仍然很明显。总的来看，短视频生成模型虽然离人工水平还差得远，但无论在事实准确性还是帮助性上，都明显领先于长视频模型。

人类评估：指标到底靠谱不？

在 108 组两两对比中，FactP 与人工事实判断的一致性达到了 70.8%，大幅超过了现有视频质量自动评估标准 VBench-Long 最优维度的 56.5%；HelpS 与人工帮助性判断的一致性也有 69.0%。但传统指标就差得远了——比如 Imaging Quality 的 38.9%，几乎和人类判断没什么关系。

三大系统性错误：模型到底错在哪？

通过对 870 条错误声明 的细致分类，三类短板清晰浮现：

实体误描占比最高，高达 42.6%。模型经常“发明”一些现实中不存在的外观特征，特别是遇到特定产品型号时，幻觉率直线飙升。比如，它会把 Bostitch 电动卷笔刀画成盒状插孔，而真机其实是弧形机身。

操作错误紧随其后，占 40.7%，这类错误更隐蔽：外观倒是对了，步骤却全乱套。模型能准确还原 BP5450 血压计的外形，却把袖带绑在了前臂，而这台设备是专为上臂设计的。这种程序性知识的系统性缺失，直接影响视频的可用性。

组件错位占比 15.0%，虽然比例最低，但问题同样致命。比如把机油和漏斗放到中央扶手箱里，而不是发动机舱，这种错误直接让视频失去指导价值。

结语：从视觉生成走向知识传达

KIVI 系统定义了一个被长期忽视的任务方向：视频生成不应该只服务于娱乐创作，更要在知识密集场景 中准确传达信息、清晰展示过程，真正帮到用户理解或完成任务。

当目标从“还原画面描述”转向“传达可靠知识”，评测标准自然要跟着变。传统评测里表现最好的模型，未必能在事实性、过程合理性和实用性上保持优势。从简短文本需求直接生成知识型视觉内容，对模型的理解、规划和生成能力提出了更高维度的要求。

所以，KIVI 不是一个新基准这么简单，它其实在重新定义视频生成的下一阶段目标：从“画面自然”，走向“内容可靠”；从“娱乐创作工具”，走向“知识获取媒介”。这也是视频生成从像素空间，真正跨入实用空间的下一个前沿方向。