视频生成模型评测:七款AI用1080条提示词能否做到好看好用又准确?

2026-06-16阅读 0热度 0
知识密集型视频生成 KIVI-Bench

当视频生成模型不再只是娱乐工具,而是被推向科学、医疗、教育这些知识密集型场景,问题一下子就变了——它们还能不能生成事实准确、清晰可用的视频?换句话说,光“好看”还远远不够,还得“靠谱”。

任务对比:从“视觉质量”到“知识密集”

正是瞄准这个被忽视的缺口,研究者首次定义了 「知识密集型视频生成」(KIVI) 这个新任务。它的核心要求很明确:模型必须从简短提示词出发,生成事实准确、用户真能跟着做的视频。为了支撑这个任务,团队构建了包含 1080 条提示词的 KIVI-Bench 评测集,并配套设计了两个自动评价指标——FactP 和 HelpS。研究在 7 款主流模型上跑了一圈,结果真实地暴露了三大系统性短板:实体误描、操作错误和组件错位。

  • 论文标题:Knowledge-Intensive Video Generation

  • 代码仓库:github.com/wcxhimself/KIVI

一个被忽视的空白:视频生成不该只为娱乐存在

过去两年,从 Sora 到 Seedance,视频生成模型在画面质量、运动流畅度和时空一致性上确实进步神速。但话说回来,现有的研究和评测几乎都围着“视频是否好看”打转,很少追问:内容是否准确?过程是否合理?信息是否真的能用?

结果就是,当这项技术开始进入医疗、教育、科学传播、操作指导这些领域时,矛盾立刻暴露了。用户关心的早就不是画面逼真不逼真,而是模型能不能准确表达知识、清晰展示步骤、真正帮人完成任务。问题的核心也就从“能否生成自然流畅的视频”,转向了“能否生成知识可靠且有实际价值的视频”。

这种变化其实揭示了一个明显的错位:比如用户搜索“如何更换汽车轮胎”,他期待的绝对不是一段视觉效果华丽但步骤含糊的视频,更不是自己写完分镜脚本再交给模型逐段生成。更合理的模式是,模型能直接理解意图,输出一段步骤正确、过程清晰、能跟着做的视频。KIVI 正是基于这个判断,把视频生成的评测目标从视觉质量,推向了知识可靠性用户实用性

KIVI-Bench:1080 条模拟真实用户场景的提示词

这 1080 条提示词覆盖了 18 个类别,包括汽车维护、健康医疗、电子设备等。它们先由 LLM 扩展,再经过人工去重精筛。每条提示词的构造都遵循五条标准:视频优越性——比文字更直观,比如空间操作和界面导航;事实正确且可核验——实体有公开文档能查证;专有名词有知识挑战性——用具体产品实名,比如“Bostitch 卷笔刀”,而不是泛称“一个卷笔刀”;超越常识——得真懂才行,比如“Omron BP5450 血压计的操作步骤”,光靠日常经验答不上来;贴近真实——表述简短自然,像用户真的会问那样。

自动评估标准:FactP 与 HelpS

传统视觉指标,像图像质量、运动平滑度这些,和人类对内容准确性与帮助性的判断几乎没什么关系。为此,KIVI 设计了两个互补的自动评估标准,各自解决不同的问题。

FactP(事实精度)回答的是“说没说对”。它的思路是先抽取、再验证:让 LLM 从视频中提取出原子化声明,然后逐条判断对错,最后按正确比例计分。

HelpS(帮助性评分)回答的是“能不能照着做”。LLM 从相关性、完整性、清晰度三个维度打分,核心追问很直接:用户能不能仅凭这段视频,就完成所提的任务?两套指标合在一起,才构成一个完整的评价体系。

七款模型“同台应试”

团队评测了 7 款主流系统,覆盖闭源 API(Seedance 2.0、HappyHorse 1.0)、开源短视频生成模型(Wan 2.2、HunyuanVideo 1.5)和开源长视频模型(Helios-Base、LongCat-Video、LongLive 1.0)。

人工制作的视频,FactP 和 HelpS 分别达到了 97.8% 和 81.9%,这个成绩远超当前所有视频生成模型。而在模型比拼中,闭源的短视频模型 HappyHorse 1.0 拿下了最高 FactP(83.2%),Seedance 2.0 则收获了最高 HelpS(66.6%)。开源阵营里表现最好的 Wan 2.2,FactP 和 HelpS 分别是 73.1% 和 48.4%,与闭源模型的差距仍然很明显。总的来看,短视频生成模型虽然离人工水平还差得远,但无论在事实准确性还是帮助性上,都明显领先于长视频模型。

人类评估:指标到底靠谱不?

在 108 组两两对比中,FactP 与人工事实判断的一致性达到了 70.8%,大幅超过了现有视频质量自动评估标准 VBench-Long 最优维度的 56.5%;HelpS 与人工帮助性判断的一致性也有 69.0%。但传统指标就差得远了——比如 Imaging Quality 的 38.9%,几乎和人类判断没什么关系。

三大系统性错误:模型到底错在哪?

通过对 870 条错误声明 的细致分类,三类短板清晰浮现:

实体误描占比最高,高达 42.6%。模型经常“发明”一些现实中不存在的外观特征,特别是遇到特定产品型号时,幻觉率直线飙升。比如,它会把 Bostitch 电动卷笔刀画成盒状插孔,而真机其实是弧形机身。

操作错误紧随其后,占 40.7%,这类错误更隐蔽:外观倒是对了,步骤却全乱套。模型能准确还原 BP5450 血压计的外形,却把袖带绑在了前臂,而这台设备是专为上臂设计的。这种程序性知识的系统性缺失,直接影响视频的可用性。

组件错位占比 15.0%,虽然比例最低,但问题同样致命。比如把机油和漏斗放到中央扶手箱里,而不是发动机舱,这种错误直接让视频失去指导价值。

结语:从视觉生成走向知识传达

KIVI 系统定义了一个被长期忽视的任务方向:视频生成不应该只服务于娱乐创作,更要在知识密集场景 中准确传达信息、清晰展示过程,真正帮到用户理解或完成任务。

当目标从“还原画面描述”转向“传达可靠知识”,评测标准自然要跟着变。传统评测里表现最好的模型,未必能在事实性、过程合理性和实用性上保持优势。从简短文本需求直接生成知识型视觉内容,对模型的理解、规划和生成能力提出了更高维度的要求。

所以,KIVI 不是一个新基准这么简单,它其实在重新定义视频生成的下一阶段目标:从“画面自然”,走向“内容可靠”;从“娱乐创作工具”,走向“知识获取媒介”。这也是视频生成从像素空间,真正跨入实用空间的下一个前沿方向。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策