几句话就能生成长达一分钟，有电影质感的视频，OpenAI又来炸场了！

chatgpt2024-02-16 11:43:41128

毫无预热，一觉醒来，OpenAI又向世界扔出了一枚王炸：北京时间今天凌晨2点14分，视频模型Sora首发，给它一段文本提示词，可以直接生成长达一分钟的视频！

过去的一年多，文本和图片领域已先后被AI稳稳拿下，视频领域虽也有进展但肉眼可见存在诸多不足。然而，从现在开始，“有视频有真相”可能也将成为历史。

OpenAI创始人兼CEO山姆·阿尔特曼在海外社交平台X上疯狂刷屏，各种展示生成的视频效果。网友们也炸了锅，微博上有达人激动地写道：“这生成质量和运镜幅度直接把我看醒了……”

Sora的官网首页，详细地介绍了这款视频模型的特点，也就是它的强大之处：可以创建长达一分钟的视频，包含高度详细的场景、复杂的摄像机运动，以及充满活力的情感的多个角色等。

此前的AI视频模型，生成的视频长度大多只有几秒钟，如果想要得到一段较为完整的视频，得一段段拼接。而Open AI一上场就直接将长度卷到了一分钟！

来看一个官方放出的案例。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示词：一位时髦的女士穿行在东京的街头，街道充满了温暖的霓虹灯光和动感的城市标志。她穿着一件黑色皮夹克，一条长红裙和黑色靴子，手拿一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道潮湿且能反射，创造出彩色灯光的镜面效果。许多行人来来往往。

一分钟一镜到底，街道上的灯光和反射效果，以及人物的装扮和表情，都被生动地展现出来。

又比如想要生成一段动画场景特写。

提示词：一个矮小蓬松的怪物跪在一根融化的红蜡烛旁。艺术风格为三维写实，注重光影和质感。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴注视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，仿佛是第一次探索周围的世界。暖色调和戏剧性灯光的使用进一步增强了画面的温馨氛围。

官方表示，Sora能一次性生成整个视频，或扩展生成的视频以使其更长。通过一次给模型许多帧的预见性，我们解决了一个具有挑战性的问题，即确保主体即使在暂时消失时也保持不变。

此外，此前的AI视频模型都是单镜头单生成，而现在Sora拍着胸脯说：我可以在同一段视频里面，呈现有多角度的镜头，主体还能保证一致性。

提示词：无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花，夕阳的金光照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，绿色的灌木丛覆盖着悬崖边缘。从公路到海滩的陡峭落差非常壮观，悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。

Sora的这一波展示，在海内外迅速引发热议：

Youtube上一位知名播主Paddy Galloway表达了自己的一些碎片化思考：“内容创作的游戏规则彻底改写了。这绝不是言过其实……动画师和3D艺术家可能将面临前所未有的挑战，库存视频网站可能很快就会失去它们的市场地位，任何人都能即刻制作出精美的角色，实现高质量制作的门槛降至零……从文本转换到视频的能力将成为一项极具价值的技能……”

也有微博网友认为：“专业门槛降低，可以用上专业工具，但一样要拼创意、审美和表达的精准性。”

还有人为AI视频领域的两家潜在独角兽担忧：“如果Sora这个效果不是特别选出来而是平均生成水准的话，那Pika和Runway可能要被干掉了。”

而专业人士已经在群里开始讨论：Sora通过观察大量数据，学会了许多关于世界的物理规律，这是不是已经出现了世界模型的雏形？

世界模型是一种对环境有着内部理解的AI系统。它可以利用自己对环境的理解来模拟该环境中未来可能发生的事件，被认为是通向AGI（人工通用智能）的新方向。

‍

在海内外一片惊呼声中，Open AI也向公众展示了这一版视频模型的缺点。

比如，它可能难以准确模拟复杂场景的物理学，并且可能无法理解具体的因果实例。例如，一个人可能会咬一口饼干，但之后饼干可能没有咬痕。

模型还可能混淆提示的空间细节，比如左右混淆，并可能难以准确描述随着时间的推移而发生的事件，例如遵循特定的相机轨迹。

幸好，它现在还不够完美。

不过，OpenAI坚信：“Sora是能够理解和模拟现实世界的模型的基础”“这种能力将是实现AGI的一个重要里程碑。”

文 | 童蔚

本文链接：https://xhhm.cc/chatgpt_24.html

几句话就能生成长达一分钟，有电影质感的视频，OpenAI又来炸场了！

相关文章

如何在2023年轻松注册ChatGPT？

如何搭建一个基于ChatGPT的推荐系统？小白也能轻松上手的教程！

如何在ChatGPT中注册并开始你的AI聊天之旅？

chatgpt商业四维

ChatGPT收费版是包月服务吗？一文搞懂注册与付费细节

如何使用ChatGPT提升谷歌应聘竞争力？

如何在小白也能轻松安装ChatGPT？一步一步教程来了！

ChatGPT 为什么这么厉害？注册指南全解析！

网友评论