chatgpt注册教程

毛骨悚然!OpenAI的文生视频Sora背后的大秘密!不止生成视频,还能模拟游戏流程......

chatgpt2024-02-16 12:26:1167
OpenAI炸裂发布了AI生成视频产品,短视频/电影/短剧等视频从业者工作流要被彻底改变!区别于其他文生视频产品,Sora背后的秘密和潜力,看了论文之后毛骨悚然......

OpenAI开年惊喜,重磅发布了视频AI生成模型,名为 Sora。该模型能够根据文本提示,生成 60 秒的视频片段。OpenAI 联合创始人兼 CEO Sam Altman 在社交平台上发文称,这是“一个值得纪念的时刻”。

尽管 Sora 目前还未完全向公众开放使用,但 Altman 透露已向部分创作者开放。他表示,OpenAI 仍需对 Sora 的安全性和潜在问题进行评估和消除,然后再考虑进一步扩大使用范围。

视频 AI 生成领域目前竞争激烈,已有多家创业公司开发出类似产品,例如 Runway、Pika 和 Stability AI。大公司如谷歌也展示了自己在这方面的模型。但 OpenAI 发布的 Sora 视频样本在分辨率、流畅度及物理世界的逼真度等方面脱颖而出,尤其是其生成视频的最长时长可达 60 秒,远超其他竞争对手。

Altman 和 OpenAI 的部分高管正在社交媒体上收集网民的视频生成提示,然后利用 Sora 即时生成视频进行展示,以活生生的方式证明 Sora 的强大能力。即使是平凡无奇的日常生活场景,例如城市风景从高架火车窗外掠过,或一名女子和猫咪躺在床上,从 Sora 生成的视频也惟妙惟肖、栩栩如生。

OpenAI 的一位研究人员指出,Sora 有助于他们实现“通用人工智能”的目标,也就是开发出性能优于大多数人类的 AI 系统,能处理大部分经济价值任务。他认为 Sora 可以通过“模拟各种事物”来推动这个目标的实现。

如果你觉得Sora目前只能做视频生成,那就大错特错啦,它的潜力是超逼真的世界物理模拟器!

AIGC

创业者

OpenAI视频生成模型Sora的惊人游戏渲染能力

OpenAI最新研发的第一个视频生成模型Sora,不仅可以完成很多令人印象深刻的影像生成,根据今天公布的一份技术论文显示,其能力甚至比OpenAI最初公布的更加强大。

这篇题为“视频生成模型作为世界模拟器”的论文,是OpenAI多名研究人员合著的,它揭示了Sora架构的关键细节。例如,Sora可以生成任意分辨率和宽高比的视频(最高1080p)。论文表示,Sora能进行各种图像和视频编辑任务,从创建循环视频到沿时间轴扩展视频,以及更改现有视频中的背景。

最有趣的就是Sora“模拟数字世界”的能力。在一个实验中,OpenAI让Sora在Minecraft这个游戏世界中全权操作,不仅渲染整个游戏世界,同时还控制游戏中的物理效果和玩家视角。

那么Sora是如何做到这一点的呢?资深Nvidia研究员Jim Fan的观点是,Sora更像是一个基于数据驱动的物理引擎,而不仅仅是一个创作工具。它不仅可以生成单个图片或视频,还可以确定环境中每个对象的物理特性,并根据这些计算来渲染图像、视频或者交互式3D世界。

正如论文合著者写到的:“这些功能表明,视频模型的持续扩展是通向开发高度能力的物理和数字世界模拟器的一条有前途的路径,以及生存在其中的对象、动物和人。”

当然,Sora在游戏领域也存在一些典型的局限。例如它无法准确逼近玻璃碎裂等基本交互的物理特性。即使对其可以模拟的交互,Sora的表现也常常不一致,比如渲染出一个人吃汉堡的过程,但没有呈现出咬痕。

尽管如此,从我对这篇论文的理解,Sora似乎可以铺平通向更逼真的程序化生成游戏的道路,甚至达到照实感的效果。这既令人兴奋,也让人感到恐惧(比如深度伪造的潜在影响)。这可能也是OpenAI目前通过严格的访问计划来控制Sora的一个原因吧。

AI

内容从业者


1. Sora 不是简单的创意玩具,而是一个基于数据驱动的物理引擎。它可以模拟许多真实或虚构的世界。

2. Sora 通过去噪和梯度算法学习了复杂的渲染、"直观"物理、远程推理和语义理解。


3. Sora 可能是通过使用 Unreal Engine 5 训练大量合成数据的。


4. Sora 视频案例分析:


   (1) 根据文本提示生成精美的3D海盗船资产。实现了文本到3D的隐式转换。

   (2) 海盗船的运动动画连贯。

   (3) 咖啡液体动力学和浮沫的模拟逼真。

   (4) 渲染效果达到光线追踪的照相真实度。

   (5) 考虑场景语义不真实,但仍然应用正确的物理规则。


5. Sora 未来可增加更多条件和模态,成为基于数据的统一引擎,取代人工图形流水线。


个人观点:


1. Sora 代表了 AI 在计算机图形学、物理模拟等领域的深度应用,业已达到可与传统方法媲美甚至取代的程度。

2. 数据驱动方法具有很大潜力,未来可望解决更多依赖专家知识的复杂问题。

3. 但潜在的负面影响也需要警惕,例如生成虚假信息、侵犯隐私等。相关监管也需及时跟上技术发展。

论文地址:


https://openai.com/research/video-generation-models-as-world-simulators?ref=upstract.com


本文链接:https://xhhm.cc/chatgpt_8.html

相关文章

网友评论