你能想象吗?这个视频全部由AI根据文字描述自动生成——
“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。”
当我们还在惊奇AI绘图的时候,技术发展已经更进一步。
2月16日,OpenAI首个视频生成模型Sora发布。这个文生视频大模型,可以仅凭文字描述创造逼真的场景,生成长达60秒钟的高清流畅视频。根据OpenAI官网介绍,Sora“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题”。
“60s超长长度”“单视频多角度镜头”“世界模型”,这是不少业内人士给出的三个关键词。
Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。
此外,Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
AI视频的难度,要比AI绘图的难度大得多。当前很多相关技术还在几秒钟连贯性的边缘挣扎,而且基本都是单镜头生成,在真实物理感觉等方面也与现实相差甚远。Sora模型的发布,无异于一枚重磅炸弹,迅速在科技圈引发热议。
“现实,不存在了”“效果炸裂”“彻底端掉行业饭碗”“AI视频要变天”……网络上的评论不吝溢美之词。
根据媒体报道,得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。
例如,在一个以“色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界”为主题的视频中,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。视频中发生了多次镜头转换,由模型一气呵成生成。
可以预料的是,Sora模型以文生成视频的模式,将对很多传统影视公司产生巨大的冲击。以前技术团队需要十几天甚至几个月才能完成的内容,以后可能只需要轻轻敲下两行文字。业内人士预测,Sora模型有可能重塑视频行业。
当然,Sora当前也存在弱点,模型在准确模拟复杂场景的物理特性方面可能会遇到困难,也可能无法理解具体的因果关系实例。此外,模型还可能会混淆提示的空间细节,在处理随时间发生的事件的精确描述方面也可能存在困难等。
但它的出现,无疑让虚拟与现实的界限更加模糊。与2022年11月OpenAI发布ChatGPT一样,Sora具有重要的里程碑意义。
过去我们常说“有图有真相”,P图操作和AI绘图打破了这个认知;Sora模型出现后,有视频也不一定就是真相了。与此同时,在法律与伦理层面,Sora模型也将带来更多新情况,需要谨慎应对。
综合OpenAI官网、每日经济新闻等。
网友评论