你方唱罢我登场 虚拟世界生成模型 Genie 发布

阅读时长 15 分钟

OpenAI 和 Google 的 AI 军备竞赛,刚刚才拉开大幕。好个你方唱罢我登场,这不,天空 (Sora) 发布才不到两周,Google 旗下的 DeepMind 的精灵 (Genie) 登场了。与犹抱琵琶半遮面的 OpenAI 不同,DeepMind 号称自己发布的是一个互联网视频训练的“基础世界模型”。好好好,Google 你这是要占领 AI 宇宙的节奏是吧。虽说从命名上,跟扎克伯格的 Metaverse (元宇宙)相比,这种“世界模型”的能量少了不止一个层级,甚至相比自己之前发布的双子座(Genmi)规模还要小一些,但是至少这一次,Google 你要对得起这个“世界模型” 的称号,别跟元宇宙似的,光放臭屁不拉稀。

1 Genie 到底是个啥

image.png

首先是这个 Genie 读作基尼,起源是阿拉伯神话故事《一千零一夜》中,那个对主人的任何愿望都能满足的神灯妖怪。DeepMind 用这个神灯 logo 作为模型的形象,足以看出 DeepMind 对它的期待。

要让你震撼,先让你体验,打开 Genie 的主页面,在你逐个去细看那一行行小字之前,首先映入你眼帘的,是下面这张动图。

genie2.gif

看到这些图的读者,马上就会代入恶魔城、冒险岛、超级玛丽等熟悉的场景,是的,这就像是一个个迷宫解谜类的,闯关二维的电子游戏的图像,结合在了一起。
所以你看到这张图的时候,想必是一脸懵,脑子里蹦出的第一词一定是:“就这?”。是的,这并不是一个拥有视觉冲击效果的东京街头美女散步视频,你开始失望了吗?别急,图像不够,文字来凑,马上来看 Google 是怎么对它介绍的。

这是一个从互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图中生成无穷无尽的可玩(动作可控)世界。

从这句话我们可以揣测出,这些个像素和清晰度都足以匹敌“魂斗罗”游戏的东西,Google 说:它是一个世界。如果你对 Google 的这个描述表示难以理解的话,只需要回味以下这句佛家经典,“一花一世界,一叶一菩提” 。你看,只要心中有海滩,哪里都是拉斯维加斯;只要心中有世界,哪怕只是一张图,它也是一个世界。顺水老师真心觉得,这一次,是 Google 不仅加入了阿拉伯元素,还借鉴了佛教经典。

如果我们进一步,把这句话进行中文的缩句,就可以得到下面这句话。

这是个模型,可以生成世界。

OK,明白了,Genie 就是个创世神。创世神生成怎样的世界呢?无穷无尽的可玩的,并且动作可控的二维世界。如此说来,通过一张图片生成“魂斗罗”游戏的那一天,看来是指日可待了。

2 Genie 创世神的能力

既然是创世神,那就让我们来看看这个创世神的能力。

genie.gif

这八张图从上往下对比着来看,四张创世神使用的原图在上,生成的世界在下。

看起来是做了一件很简单的事情,就是让图动起来,来逐渐深入分析这个创世神的能力:

首先,我们可以很容易的看出,上图是静止的,下图是动态的。这是说起来简单,做起来复杂的一件事情。图像由静到动的过程,在现今的电影和图像领域,必须是由程序或者绘制方式,连续驱动多帧的完整图片,使其成为连贯的动画。换句话说,Genie 以原图像元素为基础,生成了一连串的图片,从而形成了整个动画。

其次,Genie 可以识别图像中可以用来控制的部分,或者通俗的称它为动画角色。如果你仔细看,你就会发现,在每一张静态图像中,都有一个可以被视为动画角色的存在,这个角色在下图中成为了整个动画的角色主体,而图像中的其他元素成为了动画的背景元素。说的这么绕口,其实简单来说就是,Genie 能从一张有动画角色的图上,识别出这个动画的角色,并能区分图片上其他的背景元素。在生成新图的时候,同时生成了动画角色的下一帧动作,以及背景元素的延伸图。

第三、Genie 不仅能识别背景元素,还能判断物理属性。我们从多张角色弹跳的动图,都可以看出,画面的哪些部分是图像中物理实体,比如:平地、斜坡,洞穴顶部,可以为角色运动提供物理平台,哪一部分只是背景,比如远处的山峰、藤曼、树木,不会影响角色的运动。

第四、Genie 生成了角色世界的物理特性。从第一张和第三张动图目前我们可以看到,角色向上跳动并下落的时候,有明显的上升减速和下落加速的特性,也就符合我们一般对游戏世界中的重力表现设计。

genie3.gif
genie4.gif

最后通过其他两组动图,DeepMind 还说明了无论是游戏图片还是手工绘制图片,甚至是实景照片,Genie 都能实现类似的效果。

3 与 Sora 同台竞技

同天空(Sora) 一样,Genie 生成式的,一个是文字生成视频,一个是号称生成可以互动的世界。

从实现目标以及着眼点来说,两者并不相同。Sora 的实现目标,是使用文字描述的形式,自动生成电影大片级别的视频,视频午需遵从物理世界的法则。从天龙八部小说直接变成 80级武侠连续剧,这是 Sora 可见的未来。而对于 Genie 来说,则是通过图片,生成可以互动的二维游戏世界,可以设想以后你装饰在墙上的图片,都成为了一个个哈利波特魔法学院里可动的壁画,壁画中另有一个世界,你也可以从现实世界操控二维世界的角色。

从完成度来讲 Sora 明显要高于 Genie 不止一个层级。从目前双方释出的动图和视频来看,Sora 强调的是对文字的理解和忠实的还原能力,以及对细节的刻画能力,从这个意义上来讲,目前的影片可以说让受众叹为观止,虽然最长只有一分钟的视频,离一个完整的故事,还有很长的路要走,但 Sora 模型的能力在这短短的一分钟得到了足够的印证。而 Genie 强调的是从图像生成一个基于这个图像虚拟的世界,虚拟世界并且遵循人类世界的物理法则,现实世界还可以对虚拟世界的元素进行控制。短短的三句话,可以扩展的想象的空间是无限的,但是就目前 DeepMind 演示的图像来看,虽然原图中识别可动物体这一步已经实现了,但是同时我们也可以看出,生成的这个二维空间,还远远达不到世界的水平,只能说生成了多几帧基于原图的元素的场景,如果 Genie 能像 Sora 一样生成一分钟的图像,那么这一分钟包含的信息是相当巨大的,其中必然有些许多是原图所没有包含的元素,比如原图是一个人在扫地,那么后续的洒水,房间的切换,房间的布置,角色体态的转换,更多场景对应的元素,都需要自动生成,但这一切目前都没能在本次的演示中得到展示。

其次,关于 DeepMInd 声称的可以成为具身代理的有效实验平台这个事情,它是这样来进行描述的:

有了 Genie,我们未来的人工智能代理就可以在永无止境的新生成世界中接受训练。在我们的论文中,我们证明了一个概念,即通 Genie 学习到的潜在行动可以转移到真实的人类设计环境中,但这仅仅是未来可能实现的表面现象。

image.png

翻译成人话就是,Genie 可以用于现在较难实现的具身代理的研究。那什么是具身代理呢,你可以简单理解为,具备接收外部信息,自由移动能力,能自主思考的AI。机器人就是其中的代表。我们人类在这方面的探索还处于初级阶段,当然这个机器人也可以是虚拟世界的角色,例如斯坦福小镇。当然,关于斯坦福小镇的详情,顺水老师另外会在合适的机会对它进行介绍。

但是,我要说但是,光从目前的完成度来看,Genie 还远远达不到接收外部信息,进行自主思考,进而进行自主行动的能力,所以,这仅仅只是一个展望。

4 总而言之

DeepMind 给我们展示的,还仅仅是一个希望的苗头,如果把他称之为画饼的话,这个饼才刚画下第一笔,但确实也是浓墨重彩的一笔,因为它蕴含了许多可能性,也仅仅是可能性。如果说 Google 用发布 Genie 来和 OpenAI 的 Sora 进行竞争的话,那我只能说,它俩不在同一条赛道。Sora 的文字理解和生成能力之强,几乎已经横扫了整个AI界,无论是我们普通人还是这个领域的科学家们,都不得不承认,AI 的发展已经在 OpenAI 的带领下,进入了一个人类的新纪元,在这条赛道上,OpenAI 遥遥领先,回头看已经不见对手。那既然同一条赛道干不过,那 Google 咱就换一条呗。

论文地址:
https://arxiv.org/pdf/2402.15391.pdf

项目主页**
https://sites.google.com/view/genie-2024/home?pli=1