一直以来AI内容生成领域的格局,文字天花板是 ChatGPT,图片 DALLE、StableDiffusion 和 Midjourney 等一众诸侯国烽烟四起,视频则是 Pika、Runway Gen2、Kaiber、Topaz等等百舸争流。OpenAI 一直以来没有公开染指视频生成。不是不报,时候未到。昨天凌晨 OpenAI 悄悄地在官网上发布了视频生成能力和一份技术报告,这个重量级不亚于去年召开 OpenDev 大会发布的 GPTs 和 AssistantAI,能力吊打现在所有AI视频生成工具。「··· ···」
(西部淘金热伪纪录片 by Sora,注意画面中奔跑的马匹和骑马的人始终保持着“正常”的连贯状态,Sora 甚至模拟了那个时代特有的拍摄摇臂不稳定产生的画面晃动感,它真的,我哭死)目前市面上所有工业级和消费级 AI 视频生成工具几乎都有这些问题:- 只能稳定控制一个主体/元素/角色,多主体几乎总是抽搐变形
- 动效生成完全不遵从物理定律,非常反认知和反常识,牛顿是谁?
- 在全画幅移动或做拍摄角度变换时,很难保持画面所有元素的始终如一
以上问题,OpenAI Sora 全都解决了!而且没有花里胡哨的镜头参数配置、区域涂抹选择工具,纯正的 text-2-video。「··· ···」
(复杂多主体运动和慢推送镜头 by Sora,展示了多主体的无序运动和环境背景的稳定)提示词:A petri dish with a bamboo forest growing within it that has tiny red pandas running around.(全局镜头移动下的多主体特征一致性 by Sora,每一副静态画都不会因为整个镜头的移动而有丝毫变形,基础透视理论非常棒)提示词:Tour of an art gallery with many beautiful works of art in different styles.(快速移动镜头下的环境连贯性和主体特征一致性 by Sora,最神的是猫的脸随着镜头角度的不同完整的展示出正脸和侧脸,而且两次正脸展示的是同一只猫,稳定性牛的一批)提示词:A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.
(伪航拍圣托里尼 by Sora,每一间小屋子和每一个小窗子内部的几何结构,随着角度的移动精准变换,里面的细节静物没有丝毫改变,对细节的精准把控能力恐怖如斯)提示词:Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.
(伪无人机旅拍京都赏樱 by Sora,以后你还会相信抖音和朋友圈吗?)提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
(电车镜面反射和光影 by Sora,光线和物理镜面反射能做到这个程度,已经可以拿来当电影片段了。人物闪现出来那一刻着实惊到了)提示词:Reflections in the window of a train traveling through the Tokyo suburbs.
这才是人们当初提起 AI 动效制作时,希望它该有的样子,时隔大半年 OpenAI 做到了。这篇技术报告在这里:
https://openai.com/research/video-generation-models-as-world-simulators太长也太专业了,我用 SimpleGPT 的联网能力 (https://www.cg8.pro/zh/chatgptol-x.html) 帮我总结了一下 ![]()
这篇文档描述了OpenAI关于“如何更好地制作可以模拟真实世界的视频生成模型”的研究。主要内容包括: - 介绍了Sora,这是一种大型模型,可以基于文本提示来生成长达一分钟的高保真视频。
- 为了处理各种不同持续时间、分辨率和长宽比的视频和图片数据,研究团队开发了一个用于视频和图片的统一表现形式。
- 训练了一个视频压缩网络,这个网络能够将原始视频数据压缩到一个较低维度的潜在空间。
- 通过使用时空块(spacetime patches)作为变换器的令牌,使得Sora能够处理不同分辨率、时间长度和长宽比的图像和视频。
- Sora是一个扩展性很强的变换器,它进行了模型训练,以便于能够从包含“噪声”的输入块中预测原始“干净”块。
- Sora可以生成各种格式的视频,比如1920x1080像素的宽屏视频或者1080x1920像素的立式视频,并且也能改善视频的构图。
- 通过使用详尽的视频标题来训练,增强了Sora理解语言的能力,这样的训练数据帮助提升了文本忠实度和视频整体质量。
- 除了基于文本提示之外,Sora也可以接收现有图像或视频作为输入,并进行一系列图像和视频编辑任务。
- Sora还展现了一些模拟真实世界的能力,比如在视频中呈现出三维的一致性和对象的持久性。
尽管存在局限性,例如不总是能够准确模拟一些基本物理交互,Sora今天的能力展示了继续扩展视频模型是一个朝着开发能够模拟真实和数字世界的有效途径。简而言之,研究团队通过创建Sora模型,展示了如何制作能够基于文本提示生成视频,并显示出模拟真实世界的越来越多的能力,虽然还有进步的空间,但这是一个非常前沿且有潜力的研究方向。OpenAI 解决 AI动效生成 存在的问题的思路,和目前市场上这些工具都不一样。像 Pika 和 Runway 这些工具的思路是“打补丁”,你说不能平移我就加个平移功能,你说不能三位环绕镜头我就加个镜头,哪里不行就补哪里。这种做法一方面直接导致了画面整体和局部的割裂和不相容,另一方面越来越不符合 text-2-video 这个词本身的定位了,Runway的操作面板现在复杂的一批。有啥事不可以是自然语言就能描述的清楚的呢?搞这么复杂的面板干啥呢?在自然语言处理和理解方面 OpenAI 具有天然的后发者优势。![]()
Sora 对于视频素材的学习和处理模式,继承自 OpenAI LLM 大语言文字模型的学习方法。总结起来做了三件事:1 发明了一种处理视频素材的压缩方法,把视频素材拆分成了一个个小的时空块(patch),然后把这些 patches 降维压缩 2 训练了降低视觉数据维度的网络用于模型学习 3 训练了解码器模型,将生成的潜在表示映射回像素空间。也就是把patch还原成人类肉眼可见的像素。![]()
![]()
重点在于这些 patch 具有扩展性,它可以把不同种类型的视频/图片素材统一进行处理,这个扩展性决定了它的可定制化程度相当高,用于工业级影视作品制作完全没问题。事实上内部已经邀请了电影制作人和其他媒体内容制作行业的巨擘进行试用。期待消费级商用快点发布。这和“打补丁”的解决方案完全不同,所以也从另一方面保证了方案的全局统一。当然这个模型也存在缺陷,OpenAI 丝毫不吝啬的直接展示了出来。毁天灭地级别的工具,就算是自己揭自己的短,看起来也好象是在做电影蒙太奇特效。期待 OpenAI 稍后放出的技术文档,一旦提供 API,本号将第一时间接入并放出来供大家体验。
本文链接:https://xhhm.cc/chatgpt_16.html
网友评论