概述
OpenAi 发布了自己的视频模型Sora,已经发布引起业界广泛关注,针对OpenAi sora 视频模型是什么?能做什么?目前还有那些问题没有突破?以及相关技术细节有那些?
什么是OpenAi Sora
OpenAi Sora是一个从文本创建视频的AI模型,可以根据文本指令创建现实且富有想象力的场景视频,视频长度可达60秒。Sora可以理解和模拟运动中的物理世界, 帮助人们解决现实世界交互的问题,比如:你要一口汉堡,汉堡本身会出现咬的痕迹。 Sora 是一种视觉数据的通用模型,它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,最高可达到一分钟的高清视频。
Sora能做什么
1. Sora模型不仅能够了解用户提示中给出的指令,并且能够理解物理世界的存在方式,比如:咬的痕迹。根据用户指令和物理世界的存在方式,生成多角色、特定运动、主体、背景准确细节的复杂视频。
2. Sora模型对语言有深入的理解,可以在单个视频中创建多个镜头,准确地保留角色和视觉风格。
Sora还有那些未突破问题
1. Sora模型可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系。比如:一个人咬了一口饼干,饼干可能没有咬的痕迹
2. Sora模型可能混淆提示词,比如左右;也可能难以精确描述随着时间推移发生的事件。
技术细节有那些?
1. 将视频数据转换为块。块是一种高度可扩展且有效的表示形式,可用于训练生成模型处理各种类型的视频和图像。在高层次上,我们通过首先将视频压缩成较低维度的潜在空间,然后将表示分解成时空块来将视频转换为块。
2. 视频压缩网络。OpenAi训练了一个减少视觉数据维度的网络。这个网络以原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。
3. 时空潜在块。给定一个压缩的输入视频,OpenAI提取一系列作为变换器令牌的时空块。这种方案也适用于图像,因为图像只是具有单帧的视频。我们基于块的表示使 Sora 能够在各种分辨率、持续时间和宽高比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的块来控制生成的视频的大小。
4. 将变换器扩展到视频生成。Sora 是一个扩散模型;给定输入的噪声块(以及文本提示等条件信息),它被训练以预测原始的“干净”块。值得注意的是,Sora 是一个扩散变换器。变换器已经在各种领域展示了显著的扩展性质,包括语言建模、计算机视觉和图像生成。
5. 可变持续时间、分辨率、宽高比。过去处理图像和视频生成的方法通常将视频调整大小、裁剪或修剪为标准大小,例如,分辨率为 256x256 的 4 秒视频。OpenAI发现,与其训练数据调整到固定尺寸相比,训练数据使用其原始尺寸带来了几个好处。
6. 采样灵活性。Sora 可以采样宽屏 1920x1080p 视频、纵向 1080x1920 视频以及两者之间的所有内容。这使 Sora 可以直接按照它们的原生宽高比为不同设备创建内容。这也让我们能够在生成全分辨率之前快速在较低尺寸上原型化内容——而所有这些都使用同一个模型。
7. 改进的构图和组成。OpenAI凭经验发现,根据视频的原生宽高比进行训练可以改善构图和组成。OPenAI将 Sora 与一个将所有训练视频裁剪为正方形的模型版本进行比较,这在训练生成模型时是常见的做法。训练过程中使用正方形裁剪的模型(左侧)有时会生成主题只部分可见的视频。相比之下,Sora 生成的视频(右侧)具有改进的构图。
8. 语言理解。训练文本到视频生成系统需要大量带有相应文本标题的视频。OpenAi将 DALL·E 330 中引入的重新标题技术应用到视频中。OpenAi首先训练一个高度描述性的标题模型,然后使用它为我们训练集中的所有视频生成文本标题。OpenAi发现,训练过程中使用高度描述性的视频标题可以提高文本的准确性以及视频的整体质量。
9. 使用图像和视频进行提示。Sora 可以通过其他输入进行提示,比如预先存在的图像或视频。这种能力使得 Sora 能够执行各种图像和视频编辑任务,包括创建完美循环视频、使静态图像动画化、向前或向后延长视频等。
10. 图像生成能力。Sora 也能够生成图像。我们通过将高斯噪声的补丁按照一帧的时间范围排列在空间网格中来实现这一点。该模型可以生成不同大小的图像,分辨率高达 2048x2048。
11. 新兴的模拟能力。OpenAi发现,当视频模型进行大规模训练时,它们表现出许多有趣的新兴能力。这些能力使得 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性是在没有任何显式归纳偏见的情况下出现的,它们纯粹是规模现象。
12. 三维一致性:Sora 能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。
13. 长期连贯性和物体永恒性。视频生成系统面临的一个重要挑战是在采样长视频时保持时间上的一致性。我们发现,Sora 往往可以有效地建模短期和长期的依赖关系。例如,我们的模型可以在被遮挡或离开画面时持续存在人物、动物和物体。同样,它可以在一个样本中生成同一角色的多个镜头,并在整个视频中保持他们的外观。
14. 与世界互动。Sora 有时可以模拟简单影响世界状态的行动。例如,一位画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃掉一个汉堡并留下咬痕。
15. 模拟数字世界。Sora 还能够模拟人工过程,比如视频游戏。Sora 可以同时控制 Minecraft 中的玩家,同时以高保真度呈现世界和其动态。这些能力可以通过提及“Minecraft”的标题来零-shot地提示 Sora。
网友评论