毫无预热,一觉醒来,OpenAI又向世界扔出了一枚王炸:北京时间今天凌晨2点14分,视频模型Sora首发,给它一段文本提示词,可以直接生成长达一分钟的视频!
过去的一年多,文本和图片领域已先后被AI稳稳拿下,视频领域虽也有进展但肉眼可见存在诸多不足。然而,从现在开始,“有视频有真相”可能也将成为历史。
OpenAI创始人兼CEO山姆·阿尔特曼在海外社交平台X上疯狂刷屏,各种展示生成的视频效果。网友们也炸了锅,微博上有达人激动地写道:“这生成质量和运镜幅度直接把我看醒了……”
Sora的官网首页,详细地介绍了这款视频模型的特点,也就是它的强大之处:可以创建长达一分钟的视频,包含高度详细的场景、复杂的摄像机运动,以及充满活力的情感的多个角色等。
此前的AI视频模型,生成的视频长度大多只有几秒钟,如果想要得到一段较为完整的视频,得一段段拼接。而Open AI一上场就直接将长度卷到了一分钟!
来看一个官方放出的案例。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
提示词:一位时髦的女士穿行在东京的街头,街道充满了温暖的霓虹灯光和动感的城市标志。她穿着一件黑色皮夹克,一条长红裙和黑色靴子,手拿一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道潮湿且能反射,创造出彩色灯光的镜面效果。许多行人来来往往。
一分钟一镜到底,街道上的灯光和反射效果,以及人物的装扮和表情,都被生动地展现出来。
又比如想要生成一段动画场景特写。
提示词:一个矮小蓬松的怪物跪在一根融化的红蜡烛旁。艺术风格为三维写实,注重光影和质感。这幅画的基调是惊奇和好奇,怪物睁大眼睛、张开嘴巴注视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,仿佛是第一次探索周围的世界。暖色调和戏剧性灯光的使用进一步增强了画面的温馨氛围。
官方表示,Sora能一次性生成整个视频,或扩展生成的视频以使其更长。通过一次给模型许多帧的预见性,我们解决了一个具有挑战性的问题,即确保主体即使在暂时消失时也保持不变。
此外,此前的AI视频模型都是单镜头单生成,而现在Sora拍着胸脯说:我可以在同一段视频里面,呈现有多角度的镜头,主体还能保证一致性。
提示词:无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花,夕阳的金光照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,绿色的灌木丛覆盖着悬崖边缘。从公路到海滩的陡峭落差非常壮观,悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。
Sora的这一波展示,在海内外迅速引发热议:
Youtube上一位知名播主Paddy Galloway表达了自己的一些碎片化思考:“内容创作的游戏规则彻底改写了。这绝不是言过其实……动画师和3D艺术家可能将面临前所未有的挑战,库存视频网站可能很快就会失去它们的市场地位,任何人都能即刻制作出精美的角色,实现高质量制作的门槛降至零……从文本转换到视频的能力将成为一项极具价值的技能……”
也有微博网友认为:“专业门槛降低,可以用上专业工具,但一样要拼创意、审美和表达的精准性。”
还有人为AI视频领域的两家潜在独角兽担忧:“如果Sora这个效果不是特别选出来而是平均生成水准的话,那Pika和Runway可能要被干掉了。”
而专业人士已经在群里开始讨论:Sora通过观察大量数据,学会了许多关于世界的物理规律,这是不是已经出现了世界模型的雏形?
世界模型是一种对环境有着内部理解的AI系统。它可以利用自己对环境的理解来模拟该环境中未来可能发生的事件,被认为是通向AGI(人工通用智能)的新方向。
在海内外一片惊呼声中,Open AI也向公众展示了这一版视频模型的缺点。
比如,它可能难以准确模拟复杂场景的物理学,并且可能无法理解具体的因果实例。例如,一个人可能会咬一口饼干,但之后饼干可能没有咬痕。
模型还可能混淆提示的空间细节,比如左右混淆,并可能难以准确描述随着时间的推移而发生的事件,例如遵循特定的相机轨迹。
幸好,它现在还不够完美。
不过,OpenAI坚信:“Sora是能够理解和模拟现实世界的模型的基础”“这种能力将是实现AGI的一个重要里程碑。”
文 | 童蔚
网友评论