AI视频生成新纪元:Seedance2.0对比评测与未来趋势解析
我们熟悉的AI模型,有写文章的大语言模型,有画图的生图模型,还有做视频、处理音频的各类模型。
经过这几年的飞速发展,这些技术已经非常强大,感觉距离某个技术奇点越来越近了。
特别是临近春节,字节跳动发布的Seedance 2.0,直接把视频生成的质量拉到了一个新高度,不少朋友已经开始用它制作短剧和特效了。
而最近,模型领域又出现了一个新事物:世界模型。它虽然也属于视频模型的范畴,但与我们熟知的视频生成模型有着本质的区别。
甚至可以说,从它身上能看到《头号玩家》的雏形,这无疑带来了巨大的想象空间。
不妨畅想一下,我们这代人老了之后,大概率不会满足于跳广场舞吧?最理想的退休状态,或许是戴上VR设备,进入一个真实版的《头号玩家》世界,去体验上百种不同的人生,甚至成为那个世界的掌控者,随心所欲地影响周遭的一切。
光是想想,就足够梦幻。
先来看一段视频(展示了人与视频交互导致的场景、四季变化)。
看完这段演示,或许就能理解,为什么说世界模型有点像《头号玩家》的早期形态了。
实时互动的“活”世界
这正是PixVerse最新发布的R1实时世界模型所展现的交互效果。它看起来就像一个实时渲染的游戏引擎,但背后不需要复杂的建模和编程,只需要你的一句话。
那么,到底什么是世界模型?它和普通的视频生成模型又有什么不同?
很多朋友可能会疑惑:这不也是生成视频吗?有什么特别的?
为了便于理解,可以打个比方。
传统的视频生成模型,就像是在看一场事先录好的电影。你输入一段文字描述,AI生成一段固定的视频,你只能观看,无法改变。如果想调整剧情,比如让主角向左转而不是向右,唯一的办法就是重新生成一段全新的视频,之前的成果就作废了。
而世界模型,则像是在玩一个开放世界的游戏(比如《我的世界》或《GTA5》)。画面是实时演算的,剧情是连续发展的。你输入指令“向左走”,主角就真的向左移动;你接着说“下雨”,天空就真的阴云密布,雨滴落下。
它是“活”的。
在这个模型构建的世界里,视频不再是一段封闭的素材,而是一个可以无限延展、实时互动的动态流。你既是导演,也是玩家,可以随时介入,改变世界的走向。
从工具到生态的进化
PixVerse这个名字在视频生成领域口碑一直不错。今年1月13日,他们突然发布了一款名为R1的模型。而最近,不到一个月的时间,R1又进行了一次重大版本升级。
这次升级,直接让它从一个单纯的工具,进化成了一个潜在的生态平台。
当然,R1最令人兴奋的地方,在于它带来的那种即时反馈、未知感和掌控感,会让人忍不住想继续探索下去。这不禁让人联想到《千与千寻》里的神隐世界,或是《爱丽丝梦游仙境》里的兔子洞。
不知道大家是否有过这样的经历:有时在梦中,会突然意识到自己正在做梦,并试图控制梦境,但又像一个旁观者,难以真正操控,随后挣扎片刻,便慢慢醒来。
R1世界模型,就像一个可以被控制的梦。你既是旁观者,又是深度参与者。
下面是一些近期体验R1的录屏片段,有时候真的会玩到忘记时间,这是一种非常新奇的体验。
奇幻按钮探险
尝试构建了一个更开放的游戏场景:奇幻按钮探险。设定很简单:画面中央有一个红色的按钮。每当在输入框里输入新的指令,屏幕里的世界就会发生翻天覆地的变化。
输入:“按钮变成机械蜘蛛”。一只充满赛博朋克风格的蜘蛛便缓缓爬行过来。
输入:“按钮变成通往雨林世界的传送门”。转眼间,就来到了一个生机勃勃的热带雨林。
这就像一个开放世界游戏,下一秒会遇到什么,完全由你的指令决定。这种身临其境的体验感,是传统视频生成无法提供的。
洞xue探险
还尝试了一个更宏大的场景:洞xue探险。
输入:“发现一株蓝色的花”。画面中真的出现了一株散发着幽光的蓝色花朵。
接着输入:“继续走,发现了钻石”。视角自动向前推进,洞xue的岩壁上赫然亮起了钻石的光芒。
这简直就是在玩一个文字冒险游戏的3D沉浸式升级版!
而且,你构建的世界还能发布到平台的“世界广场”,其他人也可以进入你创造的世界自由探索和互动。
例如,可以进入其他用户构建的“吵醒毛毛虫”游戏。这是一个非常有趣的互动场景:画面里原本有一只正在睡觉的毛毛虫。通过输入指令,可以让蚂蚁、松鼠等角色出现在画面中,并改变毛毛虫的状态。
超越娱乐的严肃应用
除了好玩,世界模型其实拥有众多严肃的应用场景。
比如在游戏开发领域:以往策划想验证一个玩法创意,需要美术人员建模、程序员编写代码,前后可能折腾半个月。现在利用R1,很快就能搭建出一个可交互的玩法原型,高效验证想法是否可行。
比如在建筑设计领域:建筑师可以模拟不同天气、不同光照条件下建筑的空间效果,甚至可以让客户在房屋尚未建成时,就进行“云看房”,获得沉浸式的体验。
再比如影视特效预演、互动教育场景等等,潜力巨大。
据推测,要不了多久R1就会支持音频的同步生成。这意味着你在“看”这个世界的同时,也能“听”到这个世界——风声、雨声、人声都将实时生成,沉浸感直接拉满,这非常值得期待。
未来已来,雏形初现
虽然目前的R1仍处于初级阶段(堪称一个新物种),画面有时会不够清晰,控制也并非百分之百精准,偶尔还会出现一些违反物理规律的“鬼畜”现象。
但可以确定的是,它很可能代表了未来视频交互的发展方向。
想象一下,当这个世界模型的画面升级到8K高清VR级别,再连接上脑机接口。到那时,你可能很难分清什么是现实,什么是生成的世界。这套组合下来,不就是《头号玩家》所描绘的景象吗?
另外,目前PixVerse已经开放了R1的API接口(通常需要申请)。这意味着开发者可以将这种世界构建和实时交互的能力,接入到各种各样的应用中去。
也许要不了多久,我们就能在手机上玩到基于世界模型的、拥有无限可能的游戏,或者观看永远不会真正“完结”的互动剧集。
这,不正是《头号玩家》的雏形吗?或许,元宇宙的构想也将因此找到新的突破口。