AI视频生成器终极对决:Seedance 2.0 vs Nano Banana深度测评

2026-05-20阅读 0热度 0
Seedance

Gemini Omni 的正式发布,证实了此前业界的广泛猜测。

然而,它并非一个单纯的视频生成模型。谷歌为其赋予了更宏大的愿景:一个能够处理任意模态输入并生成任意模态输出的统一智能体。视频生成,仅仅是其当前能力集的一个子集。

在发布会上,DeepMind 首席执行官 Demis Hassabis 演示了 Gemini Omni 的核心用例。上传一张个人肖像,Omni 便能实时重构人物所处的背景环境,无缝切换多种视觉风格。

绘制一个简单的圆形,它能生成一个符合物理规律的黑洞;描述一次黄昏时分的散步,它会渲染出不同艺术风格的场景。任何原始素材,在 Omni 的框架下都能转化为构建全新视觉叙事的画布。

Gemini Omni 的技术突破,在于将文本、视频、图像乃至交互式仿真,统一整合进一个端到端的生成框架。

具体而言,它深度融合了谷歌旗下数款顶尖的生成式媒体模型,包括图像模型 Nano Banana、视频生成模型 Veo,以及世界模型 Genie。

这意味着,当你输入“制作一段关于蛋白质折叠的动画解说”时,其输出不再是文本脚本,而是直接包含 α 螺旋、β 折叠等三维结构动态演示的完整教学视频。

提示词:claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

技术社区迅速将 Omni 与 Seedance 2.0 进行了横向对比,从生成质量、动态细节和跨帧一致性等维度进行了深度评测。

视频来源:X@TopviewAIhq

综合来看,Seedance 2.0 在通用场景下表现依然稳健,而 Omni 则在特定复杂任务中展现了更强大的情境理解与生成能力。

根据官方技术博客,Omni 的核心能力目前聚焦于视频编辑与物理模拟两大领域。

动动嘴就能剪视频,AI 视频的「可控时刻」

除了生成教学视频,视频编辑是 Omni 另一个关键应用场景。

用户可以上传自拍或任意视频素材,随后通过自然语言指令,像与专业剪辑师沟通一样,对视频进行多轮迭代编辑,调整风格、添加或替换元素。这套交互范式,与 Nano Banana 在图像编辑中确立的“对话式编辑”逻辑一脉相承。

官方演示清晰地展现了这一能力的潜力。

拍摄一段手触摸镜面的视频,只需向 Omni 发出指令:“当手指接触镜面时,让镜面产生如水波般的美丽涟漪,同时将手臂材质替换为镜面反光效果。”

生成结果令人印象深刻:视频主体动作序列被完整保留,而镜面的物理状态与手臂的表面材质被精准、自然地替换,实现了局部属性的可控编辑。

其“多轮对话编辑能力”尤为关键,每一次新指令都基于前次生成结果进行迭代,Omni 会竭力维持人物特征、环境光照、物理效果及场景上下文的高度一致性。

懂像素,更懂这个世界的物理法则

物理模拟是 Gemini Omni 技术壁垒最高的部分。谷歌表示,Omni 在模拟动能、重力、碰撞等物理现象时实现了“质的飞跃”。这意味着,更符合物理规律的视频、图像及交互式仿真内容,现在均可通过自然语言指令生成。

当要求生成“一颗在连锁反应轨道上快速滚动的弹珠”时,Omni 展现了对重力加速度、动量传递与碰撞动力学的精确理解。

另一个复杂案例是“字母表物品视频”。要求模型依次展示26个英文字母,每个字母需对应一个非常规物体(例如,C对应水豚,D对应迪斯科球,L对应熔岩灯)。

提示词:Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and La va Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

Omni 成功同步处理了字母与物体的语义对应、画面节奏、字幕样式、帧率要求、背景音乐风格及视频收尾设计。这背后是其深层语义关联能力,而非简单的视觉特征匹配。

目前,Gemini Omni Flash 版本已全面集成至谷歌产品矩阵,面向全球的 Google AI Plus、Pro 和 Ultra 订阅用户开放。用户可通过 Gemini 应用及 Google Flow 平台访问。

在 Gemini 网页端或移动应用中,用户可选择“生成视频”功能来体验 Omni 的核心能力。

Gemini 提供了年轻时尚、蒙太奇、美漫画风、会说话的宠物、派对邀请函、月球主题、表情包变身、涂鸦特效、像素冒险等18种预设风格。Pro 账户每日享有3次生成额度。

尝试输入提示词:“一位男性汽车博主,身着女装JK制服,梳着双马尾辫,站在一辆汽车前”,并选择80年代MV风格预设,即可生成如下这段风格鲜明的视频。

谷歌同时宣布,YouTube Shorts 及 YouTube Create App 的用户将从本周起免费使用相关功能;未来几周内,将通过 API 向开发者与企业客户开放 Gemini Omni 的接入能力。

Omni 能够将图片、文字、视频和音频作为参考上下文,融合生成连贯的多模态输出。

为应对公众对 AI 生成内容真实性的关切,谷歌强调,所有由 Omni 生成的视频都将嵌入肉眼不可见的 SynthID 数字水印,并可便捷地进行来源验证。

针对真人肖像与声音的使用,它还推出了可克隆外貌与声线的 Avatar(数字分身)功能。

过去一年,谷歌通过 Nano Banana 将 Gemini 的多模态能力成功拓展至图像生成与编辑领域。如今,Gemini Omni 正将同一套“对话式生成”范式引入视频领域,旨在复现视频生成领域的“Nano Banana 时刻”。

对视频创作者而言,最直接的改变是制作门槛的再次降低:一段手机拍摄的原始视频、一张风格参考图、一段背景音乐,都可能成为可进行“对话式”深度编辑的素材。

更深层的影响在于,当视频内容可以通过自然语言指令持续迭代修改时,内容生产的速度、真实性验证机制、版权界定标准乃至平台治理策略,都将被推向一个全新的发展阶段。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策