AI影视避坑指南：从入门到创意生成实战

2026-06-05阅读 0热度 0

ai 人工智能

在CNCC 2024圆桌辩论中，AI与影视的结合引发了多位行业领军人物尖锐交锋：“越是专业的人越觉得AI像傻瓜相机，只能产出令人‘致幻’的演示片段，实际落地往往落差巨大。”“艺术创作不仅是结果，过程本身同样关键，而AI或许永远无法复现这个过程，AIGC也永远无法理解艺术。”“AI技术或许能实现创作平权，让非专业人员也能产出作品。但人人都会写字，并不代表人人都能写出好故事。”这些观点折射出影视行业对AI既期待又审慎的真实心态。大会邀请董未名、苑盛成、朱军、宋睿华、何万青、张邦、张迪、朱梁等AI与影视领域专家，围绕“AI+影视创作”展开了一场充满碰撞的深度讨论。本文在不改变原意的基础上对内容进行编辑整理，希望能为你带来更多启发。

AI+影视的“诗意”与“陷阱”

主持人：第一个议题，我们聚焦AI与影视的“优势与挑战”。谁会拿一台傻瓜相机去拍电影？在技术与产业融合的过程中，各位真实感受到了什么？请朱总先分享。

朱梁：AI与影视结合的“诗意”与“陷阱”，以及预期与落地的差距，是个老生常谈的问题。电影创作对影像与声音的品质要求极高，尤其是连续性——大多数基于DIT架构的模型都无法做到。要让角色、造型、光线方向以及镜头运动保持完全一致，就像电影中连贯的运镜，目前极其困难。我们曾在儿童动画片项目中进行测试，片方提供的样片效果惊艳，但深入沟通后发现，人工参与的环节仍然非常多。要想获得专业级的高质量成品，必须大幅压缩人工介入比例。所以说，虽然不能100%称之为“坑”，但与我们对AI真正落地的期待确实还有距离——这是最真实的体感。

宋睿华：专业人士对某些技术持保留态度，完全可以理解。艺术不只是最终的作品，还包括创作的整个过程——艺术家构思故事、反复修改、绘制分镜，或者导演带领团队历经一两年才看到最终画面。这个过程本身就承载着价值。我一直思考：AI可能陷入套路化，对高水平创作者而言，或许无法满足他们的需求。比如，我虽不制作视频，但阅读别人写的故事或文本时，仍觉得AI的想象力逊于人类。不过话说回来，“傻瓜相机”并不差，它们的销量和产值可能远超专业设备。专业人士或许难以接受，但对业余爱好者来说，市场潜力巨大。

主持人：朱军老师，在这个融合进程中，大家真实感受到的是技术端在推动影视行业，还是影视端在拉动技术行业？是需求驱动，还是供给倒逼？

朱军：我认为技术确实是核心驱动力。今年我们都在探讨为什么偏偏在这个时间点讨论这个问题，答案就是技术正在快速迭代。去年大家还觉得AI生成视频遥不可及，但今年情况持续变化，最大变量就是技术突破。不过“陷阱”还是要再强调——很多时候，“陷阱”源于预期与现实的落差。无意中踩到坑会让人意外，但如果我们知道坑的存在并绕过去，那就是正常路径。并非所有道路都平坦，技术也一样。AI生成内容与专业品质之间仍有差距，虽然大家正努力缩小，但目前直接实现高端生成还不现实。更务实的做法是，AI可以帮助专业人士在制作流程中降低成本、提升效率，这一点很快就能落地。正如朱总所说，如果对AI抱有过高期待，很容易陷入“陷阱”。但我是技术乐观派，即使不能完全替代，AI也能在众多环节中提供更精准的辅助。

朱梁：补充一点。爱奇艺非常欢迎新技术，但对创作者而言，长视频领域是以艺术家为中心，导演主导创作，他们有固化的表达方式与范式。这个范式需要被打破。过去一年，我们见证了令人难以置信的进步。因此，未来的创作范式必将发生剧烈变化，这关系到人才培养、产业未来走向、平台与内容创作者的关系，甚至未来剧组是否还会以当前形态存在。唯一不变的就是变化本身。

何万青：我从事传统CG领域，也就是数字内容生成。影视行业过去和现在一直在使用这种方式，涉及大量渲染软件与流水线。我非常同意刚才的观点，但想强调一点：VG模式基于语义空间转换成视频，这种新范式刚出现时让人眼前一亮，但如果没有进一步突破，就会陷入幼稚模式——比如很多人用朋友圈里的功能，结果千人一面。如果技术停滞在这个阶段，永远无法进入主流产业。目前判断，我们现有的工具还只是零散的功能，远未达到一部电影百分之七八十完全通过生成技术制作的程度。但最关键的是，我们需要理解什么是“无穷大”——在某个领域持续投入，就能不断产生更多产出，而不是在某项技术上做到极限。

苑盛成：我来补充。虽然我不是影视行业专家，但对音乐行业很熟悉。不同的人在创作欲望和能力上差异巨大。能力有限的人会倾向于选择适合自己能力的工具。比如我们遇到一位用户，他只会写词，之前写诗歌。有了AI后，他花了一星期坐在电脑前，把诗歌输入，不断生成新内容，一天能生成好几百条，直到找到满意的一条。一周后，他完成了所有诗歌的创作，并感到自己真正进行了创作。这背后说明：尽管他没有专业能力，但有强烈的创作欲望，并渴望得到结果。这样的创作虽然与专业影视或音乐人的过程和结果大相径庭，但不能否认其价值。他的作品可能没有版权价值，在平台上鲜有人听，但对他个人意义重大。许多人都处于这种状态：有表达欲望，但缺乏相应能力。现在的AI模型虽未达到理想状态，但至少提供了一种可行路径。过去他们根本无法尝试，现在至少有一条途径，即使需要不断尝试，从300个选项中找到一个满意的，也会认为是自己的创作。教育场景也一样。小学、初中、高中的学生对音乐创作感兴趣，想制作音乐剧或校园剧。他们没有能力或设备，但不会放弃。他们会用最简陋的工具，向老师请教，最终做出一些作品，获得满足感，激发兴趣，可能因此进入这个行业，逐渐成为专业人士。这也是AI技术在创作领域的一种意义。

主持人：现在AI加影视，到底是让小白上船，还是改造严肃的影视工业，比如降本增效？用一两句话概括？

苑盛成：创作有多种形式，不同的工具满足不同的需求，没有单一工具或产品形态能覆盖所有需求。

朱军：我想插一句。讨论通用的基础平台时，我的愿景是让每个人都能释放创作梦想，让每个人都能够表达自己，而不仅仅是专业人士。这不应该是AI最终特别要追求的目标，但我们可以通过通用工具让大家去表达。比如帮助导演展示想法，这些想法可能最终不会直接使用，但可以作为参考。他可能需要找真人或演员来拍摄，这样的工具能大大提高效率。短期内可能如此，长期来看，我也不认为AI要完全取代人的创作。

何万青：观察中国影视特效行业的发展，始于2000年代初。当时北京地铁站里到处是3D Max学习班的广告，之后全国各地建了很多文创基地。但有一个问题：在传统影视制作中，3D Max是生产资料，而今天的AI技术还处于打基础阶段，还没有产生作为生产资料的软件或服务。这是必须要做的，才能真正推动影视行业发展。第二点，从2007年到疫情前，许多艺术院校在培养CG人才方面开始凋零。大家最初学习模仿日韩风格，但如何创作具有中国特色的作品？技术上这是个缓慢过程。过去用CG方式，因为涉及大量物理背景和理工知识，很大程度上依赖软件本身。软件领域大多是海外的，要自主研发非常困难。但今天，CG和VG技术开辟了新道路，因为它是基于模型生成的。然而，最大的问题尚未解决：交互问题。过去CG生成模式有原理，参数不合适可以调整，但调整空间有限。因此，两种模型方式——基于科学计算或建模——是准确、可调的，最大优势在于解决艺术教育问题。过去大多数人觉得太难就止步了，最终只有专门做特效的公司培训很多工程师不断在这方面工作。所以，我们要解决问题在于把交互性做好。而交互性某种程度上由可解释性带来——可观测、可解释。当我改变它，我知道往这个方向改变，应该产生那个效果；往另一个方向改变，产生另一个效果。但对于神经网络模型，很多时候是启发式——你尝试改变它，看看会是什么样。不解决这个问题，这就是行业面临的挑战和存在的必要性。

技术发展的路线，统一了吗？

主持人：从技术发展角度，去年大家还有不同的路线。年初Sora亮相，让Transformer加diffusion model（DIT）的路线成为主流。到目前八九个月过去了，技术路线统一了吗？

朱军：先说观察。从实际效果看，最好效果肯定是扩散模型结合Transformer，包括扩大模型规模以及一些变种，比如最近提到的flow matching，但它们本质上基于同样原理。学术界也在不断探索各种架构，包括Transformer的各种尝试。但从最终效果来看，目前似乎还是倾向于使用DIT这种方法。

主持人：所以基本上以Sora路线为核心，我们更多的是快速对齐？

朱军：对的。

主持人：这跟大语言模型的逻辑类似？

宋睿华：我认为可能并不完全一样。即便是大语言模型，差距也在缩小，会追赶上来。但领头羊的地位和影响力可能会掩盖我们的一些光辉。比如人大做的悟道·文澜模型，与CLIP模型同期独立发布，但声量没有Open CLIP那么大。又比如朱老师他们在更早时候发表的那篇关于diffusion算法的文章，后来这个算法被整合到SD和Sora中。其实我们一直在为技术贡献，但他们在商业上非常成功，整个形象是领头羊，影响力特别大。有时候我们并没有做得比他们晚，而是声音没有他们大。

主持人：所以朱老师的观点是Sora路线是主流，而宋老师认为多条道路同时在探索？

宋睿华：有些技术确实有效，比如Transformer，大家都发现它非常好用。我们的同学后来意识到，最初大家想改造架构，但花费很多时间收效甚微，甚至越改越糟。最终共识是：这个模型可能是一个很好的基础单元，就像乐高积木，找到了一些非常实用、多功能的积木块，可以拼成各种各样的东西。你可以选择挑战，不要这些积木块，自己创造形状；或者认可这些积木块确实强大，利用它们构建自己想要的作品。

主持人：这个赛道现在大家竞争什么？

宋睿华：更多是个人愿景的问题，没有唯一选择，而是看谁能看得更远。即使有同样远见的人，也可能认为不同方向可行。

主持人：这是偏学术视角？董老师怎么看？

董未名：我平时做AI生成领域研究，十几年了。我喜欢从艺术创作角度看技术。从技术角度，无论国内外，核心都归结为diffusion技术。在视频领域，最核心的是Transformer加diffusion，所有模型都没有脱离这个框架。无论上层做多少改动，底层核心都是这些。但从艺术创作角度观察，现在许多大模型生成的结果存在严重同质化问题。有些风格大家都做得不错，有些风格似乎谁都做不好，也没有人敢尝试。比如，有些风格任何模型都做不好——带有特定圈圈的、大笔触大色块的油画风格。所有论文也不敢展示这样的结果。我在想：底层的技术框架，最核心的路线，可能无法涵盖所有艺术风格和技法。如果技术继续沿当前路线发展，从艺术AI推动艺术创作的角度，这真的是正确方向吗？从艺术角度看，可能还是有问题。

何万青：我可能不太同意这个观点。讨论AI在影视领域的AIGC时，有一个底线问题：艺术和审美虽然是个人化的，但都有边界条件和目的。比如画鬼，其实有一定样板——人的样子加上角或其他特征。没有样板，就会变成手机上泛滥的应用，把你的照片处理成各种样子。如果在这方面花费太多时间，可能会陷入简单快感中，导致在更重要的事情上落后更多。AIGC出来后，它提升了艺术创作者的无能基准线——过去基准线很低，现在不一样了。

AI+影视，会把我们送到什么地方去？

主持人：直接进入第三个话题。如果影视制作变得人人都能参与，这个行业还会保持现状吗？我们只是提高了效率，还是会引发文明形态转变？就像视频改变了我们阅读文章和书籍的习惯一样。当视频也被AI普及化后，我们与内容的关系会变成什么样？这是一个开放性问题，大家可以不局限于技术层面，想象一下未来一年、五年、十年，甚至更远的未来，我们将看到一个怎样的世界？

张邦：我畅想未来，AI与影视的结合将实现创作平权。这意味着创作不再局限于专业导演或编剧，普通人也能创作出感人肺腑、流传千古的作品。每个人内心都可能藏有一个值得分享、能够触动人心的故事，只是他们可能没有接受过专业训练，缺乏工具和团队来展现。AI与影视的结合在未来可能会让这种平权成为可能，让每个人都能轻松地将他们的经历和内心故事以出色的方式呈现出来。我认为这将是科技所能创造的美好未来，也是一个必然趋势。

主持人：到那个时候，影视还会是一个大工业吗？还是变成了非物质文化遗产？

董未名：从艺术创作的角度看，艺术创作的目的是什么？比如我写书，输入一行文字，然后瞬间创作出一幅画，这种创作的快感是AI无法给予的，AI永远无法提供给人类。

主持人：大部分短视频创作者创作时没有快感，看到被点赞才有快感。到时候大家都在创作，没人点赞怎么办？

苑盛成：我有些想法。虽然不熟悉影视，但音乐与它有很多相似之处。比如你听流行歌曲时，近几年你有没有关注这些歌是谁唱的、谁编曲？大多数用户听音乐时并不在乎创作者是谁。但也有一部分人创作是为了表达自己，让自己身边的人听到，获得自己创作的人生体验。这部分可能与董老师提到的创作中的表达欲有关——我表达出来了，结果被自己所接纳，我真的认为是我主导创作了这个作品，它代表了我的审美和人生体验。

何万青：补充一点。关于这种个性化和浪漫的想法，首先非常同意张邦老师的观点。AI平权可以改变大多数人的生产方式和娱乐方式。其次，这将产生一种新的经济模式。但同样重要的是，当每个人都能创作时，你需要购买别人的注意力——这就是现在的网红经济和直播经济的来源。第三点最关键也是最棘手的：如果仍然由平台公司垄断，就像现在要在抖音上获得曝光需要花钱一样，只有一小部分创作者能获得巨大流量，长尾创作者很难获得关注，这种模式仍然会限制创新。所以，AI平权肯定是好事，但必须有相应的生产关系和整个生态系统的配合才能发挥好效果。

张邦：创作平权绝对是一件好事。物质生产可能会过剩，但文化和艺术生产永远不会过剩。当参与创作的人数增多，生产信息的基数变大，信息生产量也会增加，文化和艺术创作的质量和数量都将得到提升。

苑盛成：同意张总的观点，文化和艺术创作不会过剩。艺术创作是人类对自己精神层面的探索，是主观的，每个人都是独一无二的，因此不会过剩。

董未名：我的观点用一句话概括：艺术的作用不在于复制可见之物，而在于将不可见的东西变得可见。有了AI这个工具，它能够帮助我们把每个人心中的不可见之物——我们对这个世界的憧憬和想象——转化为可见的现实。

朱军：第一句话是，AI技术正在快速发展，但不能以完美来衡量它，所有技术都有不足之处。第二句话是，AI的最终目的是帮助人们实现梦想。就像我们所做的所有工作一样，我们希望帮助人们将自己的梦想变成可见的、可传播的、可观赏的成果。

宋睿华：我想总结的刚好用到这个论坛的名字——AI+影视≠创作。人人都可以写字，但并不意味着人人都能写出好的故事。

何万青：尽管AI在创作领域还处于起步阶段，但对于今天在线上和线下的受众来说，有一件事需要记住：人们往往不会珍惜那些容易得到的东西。所以艺术也是这样，即使有了工具，你仍然需要发挥创造性。

张邦：今天讨论的Sora，即视频生成大模型或视觉大模型，与语言大模型属于同一代技术。Sora从0到1的亮相非常惊艳，是从无到有的转变，但1到100的过程可能并不那么容易。因此，希望学界和产业界都能有耐心，慢慢见证这些技术对社会和全人类的改变。

朱梁：万事万物，变化是唯一不变的真理。对于未来一年、五年、十年的发展趋势，我特别期待在专业长视频领域能有实质性的进步——这个领域是影视行业的蓝宝石或金字塔塔尖。一旦这个方向取得突破，解决了刚才各位专家讨论的问题，那么影视与AI结合的基点就真正到来了。这个时刻会真正地、极大地改善或改变我们所说的创作平权，影视行业的整体结构以及创作方式和范式将发生根本性的改变。所以我特别期待，我们不仅要仰望星空，还要脚踏实地地把每一个项目做好，把每一个技术进步的细节做好。从影视行业的角度看，它只看重结果，而不是投入了多少算力、进行了多少训练、投入了多少钱。这个行业其实很残酷，有很多有才华的人，他们有表达的欲望，创作出感动自己的作品，但观众不买账，行业也不会买账。所以，还是要这样和大家共勉。

主持人：朱总作为最后一位发言的嘉宾，占据了一个好位置，为今天的讨论定下了基调。今天的论坛到此结束，感谢几位嘉宾带来的精彩观点和真诚分享，也感谢大家的参与。

AI影视避坑指南：从入门到创意生成实战

AI+影视的“诗意”与“陷阱”

技术发展的路线，统一了吗？

AI+影视，会把我们送到什么地方去？

相关阅读

最新教程

最新资讯