OpenAI发布首个视频生成模型Sora，1分钟高清视频媲美大片，视频行业被颠覆？

chatgpt2024-02-16 11:26:34142

‍

图源：OpenAI官网（Sora生成视频截图）

作者 | 郑松毅

北京时间2月16日凌晨，就在大家酣然入梦时，OpenAI发布了AI文生视频大模型“Sora”，它能够根据用户的文本描述生成长达60秒1080P高质量的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

OpenAI表示，“我们正在教授人工智能理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要与现实世界交互的问题。”

搜狐科技在观看OpenAI官方发布的Sora演示视频后理解到，“让虚拟和现实融为一体”的概念，真的不只是说说而已。

“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上，她穿着黑色皮夹克，红色长裙和黑色靴子，拎着黑色钱包，戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。”

图源：OpenAI官网（Sora生成视频截图）

这样一部60秒一镜到底的视频，无论是对人物细节的刻画，还是对街道灯光效果的捕捉，无疑都刷新了人们对于人工智能视频创作能力的认知。要知道，一众AI创作视频还都挣扎在4秒连贯性的边缘，而OpenAI是直接支持60秒高清视频的稳定输出。

搜狐科技从官网披露的技术文档中发现，Sora能够一次生成整个视频或扩展生成的视频以使其更长，是通过一次为模型提供多帧的预测，并解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。

除了能够生成时间更长的视频外，官网介绍，“Sora模型对语言有深入的理解，使其能够准确地解释提示词并生成引人注目的字符来表达充满活力的情感。Sora还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。”

图源：OpenAI （Sora生成视频截图）

有媒体对此表示，“现在的AI工作流都是单镜头单生成，一个视频里面，有多角度镜头，主体还能保证完美的一致性，这在以前是根本无法想象的。”

OpenAI坦言，当前的Sora模型还并非是完美状态，对于物理世界的完全理解性仍是一个挑战。Sora可能难以准确模拟复杂场景的物理原理，并且可能无法理解一个事例中包含的因果关系。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

另外，该模型还可能会混淆提示的空间细节，例如混淆左右位置，并且可能难以精确描述随着时间推移发生的事件。

截至目前，OpenAI发布的Sora模型仍处于安全测试阶段，正在由OpenAI的红队成员（错误信息、仇恨内容和偏见等领域专家）合作，以对抗性方式测试该模型。

有业内人士分析，Sora的应用领域将包括但不限于新闻和媒体、虚拟现实和增强现实、娱乐和艺术、及教育培训等。这让人不禁感叹道，是否又要有一批人力劳动者将被人工智能所替代了？

不可否认的是，照这个发展速度来看，AGI（通用人工智能）的确是离我们越来越近了。

如何在2023年轻松注册ChatGPT？