回乡过年的翠花狗剩们还在返城前的梦乡里,大洋彼岸的OpenAI发布了自家首个图文生成视频模型Sora。OpenAI表示:Sora可以制作长达60秒的视频,展示高度细致的场景、复杂的多角度镜头,以及富有生动情感的多个角色。人需要做的,只是输入简短或详细的提示词描述,或一张静态图片,而已。Sora首页发布了48段Demo(原链接https://openai.com/sora),全都由AI生成、未经人工修正。动图丨Sora全AI生成的猛犸象,原视频10秒
Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
AI视频丨Sora全AI生成的电影宣传片,全长17秒Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
这段17秒的电影先导宣传片,以35毫米镜头的摄影机讲述一群宇航员的故事。画面里有快速的镜头切换、不同的景别转换、大量的人物和动作特写、以及在动作和多个人物表情、多个场景之间的对应关系。导演、摄影、剪辑的活,AI全干了。对于这些演示视频,虽然《麻省理工科技评论》质疑称:“尽管令人印象深刻,但演示视频无疑是经过精心挑选以展示其最佳状态的,如果没有更多信息,很难知道它们对模型典型输出的代表性”。 目前OpenAI尚无向公众开放的计划,看来这一点还暂时无法验证。不过,这并不影响网友在Sam Altman评论区表达震惊和欢呼。作为对比,来看下一年前那段著名的威尔·史密斯吃意大利面的AI视频:不过短短一年,AI生成视频的能力,已经足以让影视人感到威胁。图丨OpenAI发布的技术报告首页,原链接https://openai.com/research/video-generation-models-as-world-simulatorsOpenAI还发布了技术报告,报告显示,OpenAI并不是把Sora单纯当做一个视频模型来看待,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。OpenAI声称,我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。不过,Sora的突破性和效果足够惊艳,但OpenAI也承认其目前还存在一些局限性:例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎↓动图丨Sora全AI生成,显示了Sora的局限性之一其他交互(例如吃食物)并不总是会产生对象状态的正确变化,也存在其他常见故障模式比如长时间样本中出现的不连贯性或对象的自发出现。
我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。
动图丨Sora全AI生成,原视频60秒
Prompt: A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack.
OpenAI这么大动静,友军不可能毫无反应。今天凌晨,谷歌也宣布推出 Gemini 1.5。谷歌称,Gemini 1.5 Pro性能水平与谷歌迄今为止最大的模型1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征,性能、文本长度均超越了GPT-4 Turbo。Meta也不甘落后,也是在今天,公布了一种视频联合嵌入预测架构技术V-JEPA。这是一种通过观看视频教会机器理解和模拟物理世界的方法,V-JEPA可以通过自己观看视频来学习,而不需要人类监督,也不需要对视频数据集进行标记,甚至根据一张静止图片来生成一个动态的视频。Meta称,这是人工智能模型迈出的又一重要一步利用对世界的学习理解来计划、推理和完成复杂的任务。而且,V-JEPA展示了Meta在通过视频理解推进机器智能方面的先进成就,为实现更高级的机器智能和人工通用智能(AGI)奠定基础。Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.2024刚开年,大模型技术已经展现出了惊人的进展,如果说过去的2023年是“AI图文生成元年”的话,今年怕是要因为Sora的面世而成为“AI视频生成元年”了。
研究视频技术使用和滥用问题的人权组织 Witness 的执行董事Sam Gregoryza在接受《麻省理工科技评论》采访时表示,虽然技术尚未成熟,但生成视频在短短 18 个月内就从零发展到了 Sora,这将预示着:我们将进入一个宇宙,其中将有完全合成的内容、人类生成的内容以及两者的混合。国内长期关注AI前沿进展的清华大学教授沈阳则直称Sora登场为“震撼进展”,并认为,人人当导演的时代来了,将产生以下影响:第二,以文字为核心的提示,将能够形成更加符合人类观念的连续视频;第三,解决了人物一致性问题之后,AI生成视频将大踏步前进,AI视频进入大爆发期;第四,OpenAI的领先程度立即加大,又把同行紧追的距离拉开了一大截。图丨《纽约时报》报道标题,用“令人瞠目”形容Sora图丨《麻省理工科技评论》报道标题,用“令人惊叹”形容Sora图丨远在中东的半岛电视台Al Jazeera网站报道标题,用“逆天”形容Sora除了老生常谈的这将替代人类某些工种而引发的失业担忧,科学家和人文学者更多地关注生成视频的安全问题。前述研究视频技术使用和滥用问题的人权组织 Witness 的执行董事Sam Gregoryza忧心忡忡地指出:这赋予更多人通过视频讲故事的可能,同时也确实存在潜在的滥用途径。OpenAI也很清楚Sora的潜在风险,担心虚假但逼真的生成视频被滥用的可能。其文本-图像生成科学家Aditya Ramesh在接受《麻省理工科技评论》采访时则表示:公司部署非常谨慎,以确保在交付公众之前做好一切准备,当下需要获得更多反馈,并更多地了解需要解决的风险类型。我们当然希望,Sora带来的是阿拉丁神灯,但目前并不能排除它打开潘多拉魔盒的可能。AI生成视频的发展之势不可阻挡,只希望这些“四角钉”能够提醒那些能引领方向的大脑。
本文链接:https://xhhm.cc/chatgpt_18.html
网友评论