首页 > 软件教程 > Sora炸裂!AI视频生成颠覆互联网?

Sora炸裂!AI视频生成颠覆互联网?

时间:25-07-26

Sora「预告片」惊爆众人

OpenAI 发布的文本生成视频模型 Sora,就像一颗重磅炸弹,瞬间引爆了科技圈。国内又掀起了一阵 "震惊体" 评价,自媒体惊呼 "现实不存在了",互联网大佬也纷纷为 Sora 的强大能力点赞。360 创始人周鸿祎甚至预测,Sora 的出现可能会将 AGI(通用人工智能)的实现时间从 10 年缩短到 2 年左右。短短几天,Sora 的谷歌搜索指数飙升,热度直逼 ChatGPT。

免费的交易所推荐:

Sora 之所以如此火爆,源于 OpenAI 发布的一系列精彩视频,其中最长的视频长达 1 分钟。这不仅打破了此前文生视频模型 Gen2、Runway 生成视频的时长记录,而且画面清晰逼真,甚至还学会了电影拍摄的镜头语言。

在一段 1 分钟的视频中,一位身着红裙的女性走在霓虹灯闪烁的街头,风格写实,画面流畅。最令人惊艳的是女主角的特写镜头,脸上的毛孔、斑点、痘印都清晰可见,卡粉脱妆的效果甚至比直播时关掉美颜滤镜还要真实,脖子上的颈纹也精准地 "泄露" 了年龄,与脸部状态完美统一。

Sora 不仅能够对人物进行写实模拟,还能够模拟现实中的动物与环境。一段关于维多利亚冠鸽的多角度特写视频,超清呈现了这只鸟全身至冠的蓝色羽毛,甚至连红色眼珠的动态和呼吸频率都清晰可见,让人难以分辨这到底是 AI 生成的还是人类拍摄的。

对于非写实的创意动画,Sora 的生成效果也达到了迪士尼动画电影的水平,让不少网友开始担忧动画师的未来。

Sora 为文本生成视频模型带来的改进不仅仅体现在视频时长和画面效果上,它还能模拟镜头与拍摄的运动轨迹,例如游戏的第一人称视角、航拍视角,甚至是电影里的一镜到底。

看完 OpenAI 放出的这些精彩视频,你就能理解为什么互联网圈和社交媒体舆论会为 Sora 感到震惊,而这些仅仅只是预告片而已。

OpenAI 提出「视觉补丁」数据集

那么,Sora 是如何实现这种强大的模拟能力的呢?

根据 OpenAI 发布的 Sora 技术报告,这个模型正在超越先前图像数据生成模型的限制。

以往的文本生成视觉画面的研究采用过各种方法,包括循环网络、生成对抗网络(GAN)、自回归变换器和扩散模型,但它们都有一个共同点,那就是集中在较少的视觉数据类别、较短的视频或固定尺寸的视频上。

Sora 采用了一种基于 Transformer 的扩散模型,其生图过程可以分为正向过程和反向过程两个阶段,从而实现了 Sora 能够沿时间线向前或向后扩展视频的能力。

正向过程阶段模拟了从真实图像到纯噪点图像的扩散过程。具体来说,模型会逐步地向图像中添加噪点,直到图像完全变成噪点。而反向过程是正向过程的逆过程,模型会从噪点图像逐步恢复出原始图像。通过这一正一反的过程,OpenAI 让机器 Sora 理解了视觉的形成。

当然,这个过程需要反复地训练学习,模型会学习如何逐步去除噪声并恢复图像的细节。通过这两个阶段的迭代,Sora 的扩散模型能够生成高质量的图像。这种模型在图像生成、图像编辑、超分辨率等领域都表现出了优秀的性能。

上述过程解释了 Sora 能够做到高清、超细节的原因。但从静态的图像到动态的视频,仍然需要模型进一步积累数据,训练学习。

在扩散模型的基础上,OpenAI 将视频和图像等所有类型的视觉数据转换为统一表示,以此来对 Sora 进行大规模的生成训练。Sora 使用的表示方式被 OpenAI 定义为 "视觉补丁(patches)",即一种更小数据单元的集合,类似于 GPT 中的文本集合。

研究者首先将视频压缩到一个低维潜空间中,随后把这种表征分解为时空 patch,这是一种高度可扩展的表征形式,方便实现从视频到 patch 的转换,也正适用于训练处理多种类型视频和图片的生成模型。

为了用更少的信息与计算量训练 Sora,OpenAI 开发了一个视频压缩网络,把视频先降维到像素级别的低维潜空间,然后再去拿压缩过的视频数据去生成 patches,这样就能使输入的信息变少,从而减少计算压力。同时,OpenAI 还训练了相应的解码器模型,将压缩后的信息映射回像素空间。

基于视觉补丁的表示方式,研究者能够对 Sora 针对不同分辨率、持续时间和长宽比的视频 / 图像进行训练。进入推理阶段,Sora 能够通过在适当大小的网格中排列随机初始化的 patches 来判断视频逻辑、控制生成视频的大小。

OpenAI 报告称,在大规模训练时,视频模型就表现出令人兴奋的功能,包括 Sora 能够真实模拟现实世界中的人、动物和环境,生成高保真的视频,同时实现 3D 一致性、时间一致性,从而真实模拟物理世界。

Altman 当二传手为网友测试

从结果到研发过程,Sora 都展现出了强大的能力,但普通用户还无法亲自体验。目前,用户只能写好提示词,在 X 平台上 @OpenAI 创始人 Sam Altman,由他作为 "二传手",帮网友们在 Sora 上生成视频后发布出来,供公众观看效果。

这也不禁令人怀疑 Sora 是否真的如 OpenAI 官方展示得那么强大。

对此,OpenAI 直言,目前模型还存在一些问题。如同早期的 GPT 一样,现在的 Sora 也有 "幻觉",这种错误表示在以视觉为主的视频结果上显示得更为具象。

例如,它不能准确地模拟许多基本相互作用的物理过程,例如跑步机履带与人的运动关系,玻璃杯破碎与杯内液体流出的时序逻辑等等。

在下面这个 "考古工作者们挖掘出一个塑料椅" 的视频片段里,塑料椅直接从沙子里 "飘" 了出来。

还有凭空出现的小狼崽,被网友戏称为 "狼的有丝分裂"。

它有时也分不清前后左右。

这些动态画面中存在的纰漏似乎都在证明,Sora 仍需要对物理世界运动的逻辑进行更多的理解和训练。此外,相比 ChatGPT 的风险,给人直观视觉体验的 Sora 存在的道德、安全风险更甚。

此前,文生图模型 Midjourney 已经告诉人类 "有图不见得有真相",人工智能生成的以假乱真的图片开始成为谣言的要素。身份验证公司 iProov 的首席科学官纽维尔博士就表示,Sora 可能会让 "恶意行为者更容易生成高质量的假视频"。

可以想象,如果 Sora 生成的视频被恶意滥用,用于欺诈和诽谤、传播暴力和色情,造成的后果将难以估量。这也是 Sora 让人在震惊之余还会感到害怕的原因。

OpenAI 也考虑到了 Sora 可能带来的安全问题,这大概也是 Sora 仅对非常少数人以邀请制开放测试的原因。何时会向大众开放?OpenAI 没有给出时间表。但从官方发布的内容来看,其他公司追赶 Sora 模型的时间不多了。


这就是Sora炸裂!AI视频生成颠覆互联网?的全部内容了,希望以上内容对小伙伴们有所帮助,更多详情可以关注我们的菜鸟游戏和软件相关专区,更多攻略和教程等你发现!

热搜     |     排行     |     热点     |     话题     |     标签

手机版 | 电脑版 | 客户端

湘ICP备2022003375号-1

本站所有软件,来自于互联网或网友上传,版权属原著所有,如有需要请购买正版。如有侵权,敬请来信联系我们,cn486com@outlook.com 我们立刻删除。