chatgpt注册教程

OpenAI发布的文生视频大模型--Sora,我称为地表最强

chatgpt2024-02-19 20:05:1666

2月16号的时候,OpenAI,发他们的文生视频大模型--Sora,

这三天发生了非常多的魔幻故事,Sora也上了央视,各路人马都在疯狂讨论,让我感觉,AI的热度,一下子又回来了,仿佛去年的ChatGPT爆火的时候。

01
技术介绍

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。

通过让模型能够预见多帧内容,OpenAI团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。可点击查看查看Transformer的介绍《CNN/RNN/Transformer对比》

OpenAl把视频和图像分解为较小的数据单元-「patches」,每个「patches」相当于GPT中的一个「token」。

这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer°,覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E3的重标注技术,通过为视觉训练9数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAl认为这是实现通用人工智能(AGl)的重要步骤。

02
Sora是一个数据驱动的物理引擎

视频生成可以利用现实世界的视频和游戏视频进行训练,关键在于理解物理引擎中的世界模型。

类似于自动驾驶中的许多特殊情况,都是在类似游戏的仿真器中进行模拟的。

然而,对于这种“从仿真到现实”的方法,存在不同的观点。有人认为游戏中的场景与真实世界不同,因此游戏视频被视为“垃圾数据”,肯定不如仅使用现实世界的视频来训练效果好。

但我认为,视频生成的关键不在于模型贴图是否精细,而在于是否理解物理规律和各种物体的性质。

NVIDIA 的研究科学家 Jim Fan 与我的观点一致。他在 Twitter 上表示:“如果你以为 OpenAI 的 Sora 只是一个像 DALL·E 这样的创意玩具,那你就需要重新认识它了。

Sora 是一个数据驱动的物理引擎,它模拟了许多真实或幻想的世界。

通过一些去噪技术和梯度数学,Sora 学会了复杂的渲染、直观的物理学、长视角推理和语义理解。

如果说 Sora 使用了 Unreal Engine 5 的大量合成数据进行训练,我一点也不感到奇怪。这是必要的!”

这些观点表明,Sora 为理解和模拟现实世界的模型奠定了基础,对于实现通用人工智能(AGI)来说,这是一步重要的进展。

显然,有些人对于“数据驱动的物理引擎”并不太理解。Sora 是一个端到端的、扩散变换模型。

它接受文本或图像作为输入,并直接输出视频像素。

Sora 通过梯度下降法在神经网络参数中隐式地学习物理引擎,而这一切都是通过大量视频数据实现的。

可以将 Sora 视为一个可学习的模拟器,或者说是一个“世界模型”。

尽管在循环中并没有显式调用 Unreal Engine 5(UE5),但很可能向训练集中添加了 UE5 生成的(文本,视频)对作为合成数据。

这些观点表明,Sora 为理解和模拟现实世界的模型奠定了基础。对于实现通用人工智能(AGI)来说,这是一步重要的进展。

03
Sora的成本

我注意到很少有人提到 Sora 视频生成 的成本问题。根据我的初步估计,使用 Sora 生成一分钟的视频可能需要几十美元的成本,这比 Runway ML 的 Gen2(大约每分钟 10 美元)要高。

然而,许多人选择性地忽略了这一成本因素。举个例子,当 GPT-4 支持 128K 上下文时,很少有人提到使用 128K 上下文需要花费 1.28 美元。而现在 Gemini 1.5 宣布支持 10M 上下文,我们还不清楚这 10M 上下文的成本会是多少。

如果视频生成的成本高达几十美元一分钟,那么它将受到专业影片和游戏制作人的限制,而无法用于生成抖音短视频等大众内容。

这也是为什么 OpenAI 要投入 7 万亿美元来研发芯片的原因。

虽然很多人认为 Sam Altman 的做法有些疯狂,但我认为他看到了 AI 真正的瓶颈——算力。

目前,AI 训练和推理的大部分成本仍然集中在 GPU 上。许多公司在训练类似 GPT-4 级别的模型时都面临 GPU 不足的问题,更不用说实现通用人工智能(AGI)了。

对于熟悉芯片制造的同学来说,不难算出 A100/H100 等芯片的售价是台积电流片成本价的 10 倍左右。这种高溢价一方面源于芯片和软件生态的巨大研发成本,另一方面也受到垄断溢价的影响。

本文链接:https://xhhm.cc/chatgpt_45.html

相关文章

网友评论