Sora 模型深度解析与应用前景探讨

chatgpt2024-02-19 15:15:57145

面对汹涌的 OpenAI 发布了文字生成视频的模型，整个科技圈再次陷入了疯狂。作为一个 AI 的持续的观察者和应用者，当然不能错过这样的高光时刻，连夜看了一堆资料。

可以看看这些视频，真的可以以假乱真

我今天的分享分成四个部分：

1. sora模型到底牛逼在什么地方？

2. Sora 关键技术点解读

3. 我对 Sora 模型的一些看法

4. 使用 Sora 应用的一些可能的方向

第一个牛逼点，生成 60s 符合提示词的视频。

Runway 是 18s（20s 以内），Pika 最开始是 3 秒，Sora 抬手就是 60s，这个能力就是碾压的存在，而且这个视频是一镜到底的那种，连剪切都不需要。

无论是用 cg 生成，还是真实的拍摄一段这样复杂的视频，其实都是需要花费巨大的成本，现在只是通过一段简单的咒语，就达成了这个目标。

简单来说，就是过去的大模型公司，一般只能预测 3，4 秒时间的图片，但是现在 Sora 具备了能够连续一分钟，整个图片的变化，这个就是一个超强的完整的上下文能力带来的巨大的优势。

第二个牛逼点，多视角切换的能力

拍摄角度在电影摄影作品中举足轻重，影响着画面的美感，是塑造人物、表现人物与环境关系、表达画面情绪、完成叙述功能、体现视点等的关键因素。

过去的视频的拍摄，一般是基于当前的图片帧去预测下一帧的信息。

Sora 模型的多视角切换，同时保持对于提示词的理解不变，实际上是说其实对于整个世界其实已经完整的进行了 3d 的建模，可以按照不同的需要，去输出不同的图片帧的结果。这个就是一个巨大的升级。

换句话说，Sora 模型，已经将整个视频中的世界数字化了，无非是根据剧情的需要，去按照不同的视角去输出最终看到的结果给到外部而已。同时，大模型还具备导演的分镜的能力，可以选择出最适合表现出当前剧情的视角去展示。

Sora 的视频是可以做到任意机位，任意尺寸的输出方式。而不是单一尺寸的转换。

用更加通俗易懂的语言，就是整个世界，大模型已经模拟记录下来，然后可以按照诉求进行演进，然后变成视频输出。

第三个牛逼点，对于世界规律的理解

大模型的本质其实还是一个概率模型，无论是 ChatGPT 还是现在这个最新的 Sora，都是逃脱不了概率的模型。

只是，由于目前的训练样本足够大，数据也足够多，其实产生了某种智能涌现，所以看上去大模型好像懂得了很多的物理规律。

想当初，皮克斯之类的动画公司，为了做好一个动物的皮毛效果，用了多少复杂的算法，费尽大量的财力物力才做出来这些逼真的动画片，现在 Sora 直接通过数据的学习，直接做出来类似的效果，这个就是有点乱拳打死老师傅的感觉了。大力真可以出奇迹了。

无论是现在视频中看到的光影效果，还是小动物的各种毛发，他看到了足够多的视频，他知道什么地方应该有阴影，什么时候苹果应该从树上掉下来，所以他的物理世界看上去比较好的去模拟了现实世界的情况，给我带来了以假乱真的结果。

这三个就是我现在看到 Sora 最牛逼的点。

Sora 关键技术点解读

这部分会更加技术一些，就是说，这个牛逼的 sora 模型是怎么实现的：

1. 视频压缩网络

大语言模型的本质，就是对于下一个 token 的预测，这个完美而又简单的架构，让大模型可以很好的进行扩展，从而让大模型在各种场景中得到了非常广泛的应用。

在Sora 这个模型中，OpenAI 团队，定义了一个视觉补丁（patch）的一个单位。对于大模型内部，无论是预测还是训练，都是统一的使用了这个数据。

当拿到一个原始的视频之后，会通过数据的压缩，变成这个能够记录时间、空间具体场景的一份数据。如果说大模型是对语言的进行压缩表示的话，那么 sora 就是对于物理世界（包含时空）的压缩存储表示。

当模型进行推理，拿到最新的 patch 之后，通过编码器，就可以将当前的物理世界，变成一帧帧的特定尺寸的视频进行统一输出。

1. 世界模型的模拟

这是认知科学中的概念——世界模型（world models）。世界模型是现实世界中保留其结构的实体和过程的因果抽象（causal abstractions），包括具有三维形状和物理属性的对象、具有空间结构和可导航表面的场景、以及有信念和愿望的代理。人类依赖于这些世界模型来推断物理过程如何进行，并且依赖世界模型进行有效地推理、计划并谈论世界。可以理解为模拟我们现实世界社会的模型。

目前 sora，本质是一个数据驱动的物理引擎模拟的一个模型，他是大力出奇迹之下，一个大模型智能涌现的一种场景，他是后续通往 AGI（通用人工智能必备的一步）。

这句话是重点，敲敲黑板。

目前的大模型，只是通过大量的去噪和模拟，去达成当前的视频的生成，大模型本身不一定能够完整的理解物理模型，理解光影关系，理解真正的我们的世界模型。

我对 Sora 模型的一些看法

OpenAI 这个文字生成视频的模型确实牛逼，吊打整个市场各个现在的企业。

我觉得基于文字的生成视频的模式，必然会走到和文字生成图片一样的困境，需要有极其复杂的咒语才能生成对应的图片。对于视频来说，是更加大量的图片，如何精准的对没有图片进行控制，这个就是一个很复杂的问题，包括在视频中间的部分帧的微调，也是一件很困难的事情。所以基于一个文字生成视频，去颠覆整个行业，我觉得还需要不少的时间。

还是关于世界模型的理解和感知决策，是人工智能能够真正取得突破非常重要的阶段，就目前的视频来看，OpenAI，已经走出非常重要的一步。

这句话也是重点。

对于新技术的出现你，我们很容易在短时间的爆火关注，然后忽视技术长期的影响。

所有的技术最终都是为了应用。

我们使用技术也是为了赚钱。

所以，我们接下来可以考虑这个牛逼的技术可以干嘛。

1. 用 Sora 为企业定制各种视频

2. 售卖 Sora 提示词的方式，去帮助用户构建视频

3. 搭建直接运用 Sora 生成视频的小应用，比如说给小朋友做个动画片。

4. 研发类似 Sora 这样的模型

同时我们还要回看历史，之前 ChatGPT 出现发生了什么：

本文链接：https://xhhm.cc/chatgpt_44.html

Sora 模型深度解析与应用前景探讨

第一个牛逼点，生成 60s 符合提示词的视频。

第二个牛逼点，多视角切换的能力

第三个牛逼点，对于世界规律的理解

Sora 关键技术点解读

我对 Sora 模型的一些看法

相关文章

如何在ChatGPT中探索角色大全并完成注册？

如何注册并使用ChatGPT获取最新结果？一文教你轻松上手！

为什么ChatGPT有时候用不了？如何注册和解决常见问题？

如何在京东自营轻松注册并玩转ChatGPT？

如何注册ChatGPT游戏助手，成为游戏世界中的智能伙伴？

如何在阿里系产品中注册并使用ChatGPT？

如何在ChatGPT的帮助下撰写论文并获得奖项？

骗chatgpt画图

网友评论