chatgpt注册教程

Sora 模型深度解析与应用前景探讨

chatgpt2024-02-19 15:15:5767

面对汹涌的 OpenAI 发布了文字生成视频的模型,整个科技圈再次陷入了疯狂。作为一个 AI 的持续的观察者和应用者,当然不能错过这样的高光时刻,连夜看了一堆资料。

可以看看这些视频,真的可以以假乱真

我今天的分享分成四个部分:

1. sora模型到底牛逼在什么地方? 

2. Sora 关键技术点解读 

3. 我对 Sora 模型的一些看法 

4. 使用 Sora 应用的一些可能的方向

第一个牛逼点,生成 60s 符合提示词的视频。

Runway 是 18s(20s 以内),Pika 最开始是 3 秒,Sora 抬手就是 60s,这个能力就是碾压的存在,而且这个视频是一镜到底的那种,连剪切都不需要。

无论是用 cg 生成,还是真实的拍摄一段这样复杂的视频,其实都是需要花费巨大的成本,现在只是通过一段简单的咒语,就达成了这个目标。

简单来说,就是过去的大模型公司,一般只能预测 3,4 秒时间的图片,但是现在 Sora 具备了能够连续一分钟,整个图片的变化,这个就是一个超强的完整的上下文能力带来的巨大的优势。

第二个牛逼点,多视角切换的能力

拍摄角度在电影摄影作品中举足轻重,影响着画面的美感,是塑造人物、表现人物与环境关系、表达画面情绪、完成叙述功能、体现视点等的关键因素。

过去的视频的拍摄,一般是基于当前的图片帧去预测下一帧的信息。

Sora 模型的多视角切换,同时保持对于提示词的理解不变,实际上是说其实对于整个世界其实已经完整的进行了 3d 的建模,可以按照不同的需要,去输出不同的图片帧的结果。这个就是一个巨大的升级。

换句话说,Sora 模型,已经将整个视频中的世界数字化了,无非是根据剧情的需要,去按照不同的视角去输出最终看到的结果给到外部而已。同时,大模型还具备导演的分镜的能力,可以选择出最适合表现出当前剧情的视角去展示。

Sora 的视频是可以做到任意机位,任意尺寸的输出方式。而不是单一尺寸的转换。

用更加通俗易懂的语言,就是整个世界,大模型已经模拟记录下来,然后可以按照诉求进行演进,然后变成视频输出。

第三个牛逼点,对于世界规律的理解

大模型的本质其实还是一个概率模型,无论是 ChatGPT 还是现在这个最新的 Sora,都是逃脱不了概率的模型。

只是,由于目前的训练样本足够大,数据也足够多,其实产生了某种智能涌现,所以看上去大模型好像懂得了很多的物理规律。

想当初,皮克斯之类的动画公司,为了做好一个动物的皮毛效果,用了多少复杂的算法,费尽大量的财力物力才做出来这些逼真的动画片,现在 Sora 直接通过数据的学习,直接做出来类似的效果,这个就是有点乱拳打死老师傅的感觉了。大力真可以出奇迹了。

无论是现在视频中看到的光影效果,还是小动物的各种毛发,他看到了足够多的视频,他知道什么地方应该有阴影,什么时候苹果应该从树上掉下来,所以他的物理世界看上去比较好的去模拟了现实世界的情况,给我带来了以假乱真的结果。

这三个就是我现在看到 Sora 最牛逼的点。

Sora 关键技术点解读

这部分会更加技术一些,就是说,这个牛逼的 sora 模型是怎么实现的:

  1. 1. 视频压缩网络

大语言模型的本质,就是对于下一个 token 的预测,这个完美而又简单的架构,让大模型可以很好的进行扩展,从而让大模型在各种场景中得到了非常广泛的应用。

在Sora 这个模型中,OpenAI 团队,定义了一个视觉补丁(patch)的一个单位。对于大模型内部,无论是预测还是训练,都是统一的使用了这个数据。

当拿到一个原始的视频之后,会通过数据的压缩,变成这个能够记录时间、空间具体场景的一份数据。如果说大模型是对语言的进行压缩表示的话,那么 sora 就是对于物理世界(包含时空)的压缩存储表示。

当模型进行推理,拿到最新的 patch 之后,通过编码器,就可以将当前的物理世界,变成一帧帧的特定尺寸的视频进行统一输出。

  1. 1. 世界模型的模拟

这是认知科学中的概念——世界模型(world models)。世界模型是现实世界中保留其结构的实体和过程的因果抽象(causal abstractions),包括具有三维形状和物理属性的对象、具有空间结构和可导航表面的场景、以及有信念和愿望的代理。人类依赖于这些世界模型来推断物理过程如何进行,并且依赖世界模型进行有效地推理、计划并谈论世界。可以理解为模拟我们现实世界社会的模型。

目前 sora,本质是一个数据驱动的物理引擎模拟的一个模型,他是大力出奇迹之下,一个大模型智能涌现的一种场景,他是后续通往 AGI(通用人工智能必备的一步)。

这句话是重点,敲敲黑板。

目前的大模型,只是通过大量的去噪和模拟,去达成当前的视频的生成,大模型本身不一定能够完整的理解物理模型,理解光影关系,理解真正的我们的世界模型。

我对 Sora 模型的一些看法

OpenAI 这个文字生成视频的模型确实牛逼,吊打整个市场各个现在的企业。

我觉得基于文字的生成视频的模式,必然会走到和文字生成图片一样的困境,需要有极其复杂的咒语才能生成对应的图片。对于视频来说,是更加大量的图片,如何精准的对没有图片进行控制,这个就是一个很复杂的问题,包括在视频中间的部分帧的微调,也是一件很困难的事情。所以基于一个文字生成视频,去颠覆整个行业,我觉得还需要不少的时间。

还是关于世界模型的理解和感知决策,是人工智能能够真正取得突破非常重要的阶段,就目前的视频来看,OpenAI,已经走出非常重要的一步。

这句话也是重点。

对于新技术的出现你,我们很容易在短时间的爆火关注,然后忽视技术长期的影响。

所有的技术最终都是为了应用。

我们使用技术也是为了赚钱。

所以,我们接下来可以考虑这个牛逼的技术可以干嘛。

1. 用 Sora 为企业定制各种视频

2. 售卖 Sora 提示词的方式,去帮助用户构建视频

3. 搭建直接运用 Sora 生成视频的小应用,比如说给小朋友做个动画片。

4. 研发类似 Sora 这样的模型

同时我们还要回看历史,之前 ChatGPT 出现发生了什么:

本文链接:https://xhhm.cc/chatgpt_44.html

相关文章

网友评论