OpenAI 踢馆 Google,史诗级文字生成视频神器登场!

阅读时长 7 分钟

继 Google 发布了 Imagen Video 与 Phenaki 两款文字生成视频利器之后,OpenAI 直接来踢馆了,对比之后,顺水老师只能说,Google 弱爆了。

你现在看到的这个视频,是 100% 由 OpenAI 最先进的 Sora 模型生成的视频你没有看错,生成这段视频只需要输入一段文字就可以实现

这是 OpenAI 对 Sora 进行宣传的主打视频,在这个一分钟的视频中,你可以看到一个身着黑色风衣的女人行走在东京的街头。日本风格的建筑物出现在视频的背景中,街道仿佛是经过了雨水的洗礼,地面微润。这个影片让我感到很惊艳的原因是,首先这个影片对提示词的匹配程度堪称完美,提示词是这样写的

一位时尚女性走在东京的街道上,街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去。

其次,整个视频的运镜和场景的切换十分自然,最重要的是,视频的主角—这个时尚女性并不是一成不变的保持着一个姿势,在整个行走过程中,她不断变换着姿态和面部的朝向,从一个极小的扭头向右看的整个过程中,女性的正脸、侧脸、发型、以及身体其他部位的变化过渡都十分的自然,没有出现任何的失真。

你很难相信这是由计算机通过模型,通过计算所获得的。因为我们知道,通过文字生成模型最难之处,就在于视频中所出现的东西在不断变化的同时,要一直保持它固有的形态而不会产生变形、错误等失真的问题。比如当视频中的女性扭头的时候,保持发型不变就是一件极为困难的事情。

如果说要对视频鸡蛋里挑骨头的话,估计日本观众最有发言权,因为:看板上的日语都是错误的(捂嘴笑)。

再来是这个视频,这是我很喜欢的一个视频,不难看出这是一个老奶奶生日吹蜡烛的片段,你能想象,这样一段背景人物根据远近不同,虚化程度不同,每个人表达生日氛围的表情和手势都不同,有着逼真的电影拍摄效果的视频,竟然是由这样一段文字生成的:

一位头发梳得整整齐齐的祖母站在木制餐桌旁的五颜六色的生日蛋糕后面,上面摆放着许多蜡烛,表情是纯粹的喜悦和幸福,她的眼睛里闪耀着幸福的光芒。她身体前倾,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和洒水,蜡烛不再闪烁,祖母穿着一件装饰着花卉图案的浅蓝色衬衫,可以看到坐在桌子旁的几个快乐的朋友和家人在庆祝,失焦。这个场景被精美地捕捉,电影般的,显示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了气氛。

这个视频美中不足的一点是,蜡烛最后并没有熄灭,这对生成式 AI 而言,又是一个极难的课题。

这也是我个人很喜欢的一个视频。也许对 Sora 来说,生成一个人类觉得“现实”和“不切实际”的视频,都是一件特别容易的事情。背后的云朵随着镜头的移动而变化,小伙子手上的书页,随风起伏,你很难认为这是幻觉。你知道,如果用电影特效来实现书随风翻动效果,那就是在烧钱。

Sora 的神奇之处远远不止于此,如果你想要一个 3D 动画的主角来讲一个童话,对 Sora 来说也是毫无压力。

最后来一段柯基自拍吧。这个视频让我惊讶的地方在于,生成这样的视频只需要一句话:一只柯基犬在热带毛伊岛拍摄视频。你注意看到柯基背后飞过去的海鸥,和海鸥在海滩上留下的影子了吗。你能想象这只用一句话生成的虚拟世界么?

你可以点击此处,进入 OpenAI 的官网查看更多的 Sora 视频,记得不要太惊讶!

也许,我们将自己脑海中的幻想变成人人可见的影像,这样的时代,已经悄悄来临了,导演和演员们开始额头流汗,担心自己事业了么?(*^_^*)