Gemini Omni实测:一句话生成视频,草图秒变大片教程
过去,AI视频生成的核心是“创造内容”。而谷歌最新发布的Gemini Omni,则将这一概念直接升级为“创造世界”。它不仅理解动能、重力与因果关系,还能将复杂概念瞬间可视化。人类距离“言出法随”的终极梦想,似乎又近了一大步。
在深夜的Google I/O大会上,酝酿已久的Gemini Omni终于登场,堪称视频生成领域的“Banana时刻”。
谷歌DeepMind宣称,Gemini Omni结合了Gemini系列强大的推理与生成能力,实现了对世界的深度理解、多模态交互以及视频编辑能力的重大飞跃。
这被视为谷歌迈向“万能生成模型”的关键第一步。其核心特点包括:
• 作为全新的世界模型,旨在模拟现实。
• 能够生成逼真的视频、图像和交互式模拟。
• 展现出对物理规律(如动能、重力)的直观理解。
• 可将抽象概念转化为生动的可视化讲解。
• 支持对话式的自然语言视频编辑。
业界普遍认为,Gemini Omni就是视频领域的“Nano Banana”,它的出现可能将重新定义内容创作的门槛。
一个“动动嘴就能剪视频”的时代或许正在开启,传统的“眼见为实”观念将面临挑战。
AI改变世界,动动嘴剪视频
除了整体能力的跃升,硅谷风投a16z的合伙人Justine Moore指出了Gemini Omni两个尤为突出的特点:
第一,它将大语言模型级别的对话式交互能力引入了视频编辑,使得迭代修改生成结果、在多个场景中延展角色变得异常简单。
第二,其数字分身功能允许用户创建自己形象和声音的克隆,并直接植入生成的场景之中。
Gemini Omni真正实现了通过自然语言指令编辑视频。其轻量版本Gemini Omni Flash甚至能在编辑时保留视频原有的动作和连贯性,即便切换场景也游刃有余,展现出对输入视频的深刻理解。
更关键的是,Omni融合了更强的物理世界理解与Gemini模型的历史、生物、文化知识,实现了从“画得像”到“讲好故事”的跨越。它在处理人体特写、解释生物学概念方面表现卓越。
例如,Gemini Omni Flash能够展示蒙娜丽莎画像从宏观颜料到微观分子、原子的逐级缩放过程,文字渲染也极其精准。这已远远超越了简单的“内容生成”,迈入了“世界模拟”的范畴。
为什么是Omni,而非Veo 4?
回顾过去三年,谷歌的AI模型命名遵循着清晰的规律:Gemini 1.5、2.0、2.5;Veo 1、2、3;Nano Banana及其迭代版本。这种“数字+小数点”的工整模式,是典型工程师文化的体现,意味着技术路径是连续、可预期的。
然而,Gemini Omni彻底打破了这套体系。它是一个全新的词汇,不属于任何现有产品线。这本身就是一个强烈的信号。
在后续的发布访谈中,Google DeepMind的几位负责人与主持人探讨了Omni相比Veo的跨越式升级、多模态参考如何实现无缝编辑,以及谷歌在生成视频安全与透明方面的实践。
当被问及与Veo的区别时,产品负责人Nicole Brichtova的回答几乎不像一位产品经理:“这不是Veo的升级。我们必须从地基开始重新思考如何构建这个模型。”
她反复使用了一个词:step change(阶跃变化)。在45分钟的访谈里,这个词出现了五次。言下之意很明确:这不是一个新版本,而是一个新物种。
当一家以工程师文化为主导的公司,愿意打破沿用三年的命名体系来为一个产品命名时,这无异于一份公开的战略宣言。
Veo的训练目标是经典的“文本到视频”(text-to-video)。当团队后来希望它加入图像参考(例如根据照片生成视频)时,做法是在已训练好的模型上“叠加”一层条件输入。正如Nicole强调的,这是“layered into”(叠加进去)。Veo的许多能力是事后打上的补丁,而非与生俱来的骨架。
Omni则从第一天起就设定了截然不同的训练目标:“多模态进,多模态出”。图像、音频、视频、文本,这些并非训练时的“额外条件”,而是模型学习“世界是什么”的原始数据。谷歌联合创始人Demis Hassabis在现场也坦言:“我们必须重新思考训练目标本身。”
重做基础模型的代价是巨大的。联合负责人Dumitru Erhan透露,在评估阶段,他们需要同时运行视频生成、编辑、图像生成、文本对齐、音频同步等五条评估管线。
这些管线之间存在权衡:优化其中一条,可能导致另一条性能倒退。“判断在哪里取舍,需要极深的直觉。”Dumitru如是说。
但巨大的代价换来了更惊人的回报:涌现(Emergence)。
研究总监Shlomi Fruchter分享了两个连团队都未曾预料的故事。
视频的Nano Banana时刻
Omni真正惊人的能力,或许不在于从零生成,而在于编辑。访谈中有一句反直觉却信息量十足的话,来自Shlomi:
“我们发现,把不同模态放在一起训练,反而让每个模态都变得更好。”
举例来说,如果让模型学会“在视频里生成合适的音乐”,它必须先掌握“生成音乐”本身的能力——而这个能力,反过来会让它生成的视频在节奏和情感上更加连贯。
这句话值得反复品味。它揭示了一个核心逻辑:模态之间并非简单的叠加关系,而是互相滋养、协同进化的关系。
学会绘画的过程,能让模型更懂物理(因为绘画涉及光影和透视)。学会生成音乐的过程,能让模型更理解时间结构(因为音乐是结构化的时间序列)。学会编辑视频的过程,则能让模型更深刻地把握因果关系(因为编辑必须知道“改动此处会如何影响彼处”)。
这与过去十年AI行业主流的、相对割裂的单模态优化路径形成了鲜明对比。为了实现这种多模态共生,谷歌必须解决一个此前所有视频模型都未能妥善解决的问题:如何让模型同时理解图像、音频、视频、文本四种参考指令,并在编辑时精准改动目标,而不“把孩子和洗澡水一起倒掉”。
答案就是:让它们从一开始就一起学习。这也正是Demis Hassabis称Omni是“走向AGI的一步”的原因。并非因为它能拍电影,而是因为只有真正理解世界运作规律的模型,才能可信地编辑和模拟这个世界。
他们“要把猛虎关进笼子”
让Omni显得更加耐人寻味的是,谷歌在发布强大能力的同时,主动为它套上了几道“笼子”。
第一道笼子:A vatar Flow。用户若想将自己的形象植入Omni生成的视频,不能随意上传一张自拍照。必须一次性完成多角度面部采集和特定文本的录音,生成一个唯一的“数字分身”(A vatar)。此后所有涉及用户面容的生成,都必须调用这个A vatar,无法随意更换图像源。Nicole对此直言不讳:“你可能会觉得我们封锁了很多东西。”这是一种明知会增添用户麻烦,却依然坚持的审慎态度。
第二道笼子:强制水印。所有由Omni生成的视频,都会嵌入两层标识:谷歌自家的SynthID不可见水印,以及跨平台的C2PA元数据标准。即使视频被剪辑、搬运或压缩,水印依然可被追踪。用户可以将任何视频上传至Gemini应用,直接询问“这是AI生成的吗?”,系统便能进行查验。
通过Gemini Omni,谷歌不仅发布了一款产品,更向市场宣告:下一轮AI竞赛的焦点,将不再局限于聊天或搜索,而在于谁能生成、编辑并模拟整个物理世界。旧有的行业秩序,已然开始松动。

















