自从 2022 年 11 月 ChatGPT 发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1, 2]。基于这一势头,OpenAI 在 2024 年 2 月发布了 Sora,一个文本到视频的生成式 AI 模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora 的特点是能够在遵循用户文本指令的同时,生成长达 1 分钟的高质量视频[3]。Sora 的进步体现了长期以来人工智能研究任务的实质,即赋予 AI 系统(或 AI 代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的 AI 模型。
图 2:Sora 在文本到视频生成中的示例。文本指令被给予 OpenAI Sora 模型,它根据指令生成三个视频。
Sora 展示了准确解释和执行复杂人类指令的显著能力,如图 2 所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将 Sora 的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora 最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora 的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora 的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了 AI 驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了 Sora 作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。
技术。Sora 的核心是一个预训练的扩散变换器[4]。变换器模型已被证明对许多自然语言任务具有可扩展性和有效性。与 GPT-4 等强大的大型语言模型(LLMs)类似,Sora 能够解析文本并理解复杂的用户指令。为了使视频生成在计算上高效,Sora 使用时空潜在补丁作为其构建块。具体来说,Sora 将原始输入视频压缩成一个时空潜在表示。然后,从压缩视频中提取一系列时空潜在补丁,以封装短时间间隔内的视觉外观和运动动态。这些补丁,类似于语言模型中的单词标记,为 Sora 提供了用于构建视频的详细视觉短语。Sora 的文本到视频生成是通过扩散变换器模型执行的。从一个充满视觉噪声的帧开始,模型迭代地去除噪声并根据提供的文本提示引入特定细节。本质上,生成的视频通过多步精炼过程出现,每一步都使视频更加符合期望的内容和质量。
Sora 的亮点。Sora 的能力在各个方面都有深远的影响:
• 提高模拟能力:将 Sora 进行大规模训练归功于其模拟物理世界各个方面的显著能力。尽管缺乏显式的 3D 建模,Sora 展现了具有动态相机运动和长距离连贯性的 3D 一致性,包括对象持久性和模拟与世界的简单互动。此外,Sora 有趣地模拟了像 Minecraft 这样的数字环境,由基本策略控制,同时保持视觉保真度。这些涌现能力表明,扩大视频模型的规模在创建模拟物理和数字世界复杂性的 AI 模型方面是有效的。
限制和机遇。尽管 Sora 的成就突出了 AI 方面的重大进步,但仍存在挑战。描绘复杂动作或捕捉微妙的面部表情是模型可以增强的领域之一。此外,如何减轻生成内容中的偏见并防止有害视觉输出等伦理考虑,强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保 Sora 的输出始终安全且无偏见是一个主要挑战。视频生成领域正在迅速发展,学术和行业研究团队正在不懈努力。竞争性文本到视频模型的出现表明,Sora 可能很快就会成为一个动态生态系统的一部分。这种协作和竞争环境促进了创新,导致视频质量的提高和新应用的出现,这些应用有助于提高工人的生产力并使人们的生活更加有趣。
我们的贡献。基于已发布的技术报告和我们的逆向工程,本文提出了 Sora 的背景、相关技术、新兴应用、当前限制和未来机遇的首次全面审查。