Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】

📌

译者：城主

英文论文地址：https://arxiv.org/pdf/2402.17177v1.pdf

中文翻译地址：https://mp.weixin.qq.com/s/M9_0oETKIfgJsHTH4t6NdQ

Sora：大型视觉模型的背景、技术、局限性和机遇综述

Yixin Liu1* Kai Zhang1* Yuan Li1* Zhiling Yan1* Chujie Gao1*

Ruoxi Chen1* Zhengqing Yuan1* Yue Huang1Hanchi Sun1

Jianfeng Gao2 Lifang He1 Lichao Sun1†

1利哈伊大学2微软研究院

摘要

Sora是一款由OpenAI在2024年2月发布的文本到视频生成的AI模型。该模型被训练用于根据文本指令生成现实或想象场景的视频，并展现出模拟物理世界的潜力。基于公开的技术报告和逆向工程，本文对该模型的背景、相关技术、应用、现存挑战和文本到视频AI模型的未来方向进行了全面的综述。我们首先追溯Sora的发展，并探究用于构建这一“世界模拟器”的底层技术。然后，我们详细描述了Sora在从电影制作和教育到市场营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和局限性，以便广泛部署Sora，例如确保安全且无偏见的视频生成。最后，我们讨论了Sora和一般视频生成模型的未来发展，以及该领域的进步如何能够实现新的人工智能交互方式，提高视频生成的生产力和创造力。​

common.docs_name - LarkCCM_Docs_Menu_Image

图1：Sora：AI驱动视觉生成的突破。

*平等贡献。顺序是通过掷骰子确定的。Chujie, Ruoxi, Yuan, Yue, 和 Zhengqing 是在利哈伊大学LAIR实验室的访问学生。GitHub链接为 https://github.com/lichao-sun/SoraReview

†Lichao Sun 是共同通讯作者：lis221@lehigh.edu

1 引言2 背景2.1 历史2.2 高级概念3 技术3.1 Sora概述3.2 数据预处理3.2.1 变量持续时间、分辨率、宽高比3.2.2 统一视觉表示3.2.3 视频压缩网络3.2.4 时空潜在补丁3.2.5 讨论3.2.6 扩散变换器3.3 建模3.3.1 讨论3.4 遵循语言指令3.4.1 大型语言模型3.4.2 文本到图像3.4.3 文本到视频3.4.4 讨论3.5 提示工程3.5.1 文本提示3.5.2 图像提示3.5.3 视频提示3.5.4 讨论3.6 可信度3.6.1 安全问题3.6.2 其他利用3.6.3 对齐3.6.4 讨论4 应用4.1 电影4.2 教育4.3 游戏4.4 医疗保健4.5 机器人技术5 讨论5.1 局限性5.2 机遇6 结论A 相关工作​

1 引言

自从 2022 年 11 月 ChatGPT 发布以来，人工智能技术的出现标志着一个重大的转变，重塑了交互方式，并深入融入日常生活和行业的各个方面[1, 2]。基于这一势头，OpenAI 在 2024 年 2 月发布了 Sora，一个文本到视频的生成式 AI 模型，能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比，Sora 的特点是能够在遵循用户文本指令的同时，生成长达 1 分钟的高质量视频[3]。Sora 的进步体现了长期以来人工智能研究任务的实质，即赋予 AI 系统（或 AI 代理）理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令，而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的 AI 模型。​

图 2：Sora 在文本到视频生成中的示例。文本指令被给予 OpenAI Sora 模型，它根据指令生成三个视频。​

Sora 展示了准确解释和执行复杂人类指令的显著能力，如图 2 所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将 Sora 的熟练程度归因于不仅处理用户生成的文本提示，而且还能辨别场景内元素之间复杂的相互作用。Sora 最引人注目的方面之一是其生成长达一分钟的视频的能力，同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同，Sora 的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外，Sora 的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力，克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了 AI 驱动创意工具向前的一大步，允许用户将文本叙述转换为丰富的视觉故事。总的来说，这些进步展示了 Sora 作为世界模拟器的潜力，为描绘场景的物理和上下文动态提供了细腻的见解。[3]。​

技术。Sora 的核心是一个预训练的扩散变换器[4]。变换器模型已被证明对许多自然语言任务具有可扩展性和有效性。与 GPT-4 等强大的大型语言模型（LLMs）类似，Sora 能够解析文本并理解复杂的用户指令。为了使视频生成在计算上高效，Sora 使用时空潜在补丁作为其构建块。具体来说，Sora 将原始输入视频压缩成一个时空潜在表示。然后，从压缩视频中提取一系列时空潜在补丁，以封装短时间间隔内的视觉外观和运动动态。这些补丁，类似于语言模型中的单词标记，为 Sora 提供了用于构建视频的详细视觉短语。Sora 的文本到视频生成是通过扩散变换器模型执行的。从一个充满视觉噪声的帧开始，模型迭代地去除噪声并根据提供的文本提示引入特定细节。本质上，生成的视频通过多步精炼过程出现，每一步都使视频更加符合期望的内容和质量。​

Sora 的亮点。Sora 的能力在各个方面都有深远的影响：

• 提高模拟能力：将 Sora 进行大规模训练归功于其模拟物理世界各个方面的显著能力。尽管缺乏显式的 3D 建模，Sora 展现了具有动态相机运动和长距离连贯性的 3D 一致性，包括对象持久性和模拟与世界的简单互动。此外，Sora 有趣地模拟了像 Minecraft 这样的数字环境，由基本策略控制，同时保持视觉保真度。这些涌现能力表明，扩大视频模型的规模在创建模拟物理和数字世界复杂性的 AI 模型方面是有效的。​

• 促进创造力：想象通过文本概述一个概念，无论是一个简单的对象还是一个完整的场景，并在几秒钟内看到一个现实的或高度风格化的视频被渲染出来。Sora 使设计过程加速，加快了探索和精炼想法的速度，从而显著提高了艺术家、电影制作人和设计师的创造力。​

• 推动教育创新：视觉辅助工具长期以来一直是理解教育中重要概念的核心。有了 Sora，教育工作者可以轻松地将课堂计划从文本转换为视频，以吸引学生的注意力并提高学习效率。从科学模拟到历史剧情再现，可能性是无限的。​

• 增强可访问性：在视觉领域增强可访问性至关重要。Sora 通过将文本描述转换为视觉内容提供了一种创新解决方案。这一能力使所有人，包括视觉障碍者，都能积极参与内容创作并以更有效的方式与他人互动。因此，它为每个人提供了通过视频表达自己想法的机会，创造了一个更具包容性的环境。​

• 培育新兴应用：Sora 的应用范围广泛。例如，营销人员可能使用它创建针对特定受众描述的动态广告。游戏开发者可能使用它从玩家叙述中生成定制化的视觉效果甚至角色动作。​

限制和机遇。尽管 Sora 的成就突出了 AI 方面的重大进步，但仍存在挑战。描绘复杂动作或捕捉微妙的面部表情是模型可以增强的领域之一。此外，如何减轻生成内容中的偏见并防止有害视觉输出等伦理考虑，强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保 Sora 的输出始终安全且无偏见是一个主要挑战。视频生成领域正在迅速发展，学术和行业研究团队正在不懈努力。竞争性文本到视频模型的出现表明，Sora 可能很快就会成为一个动态生态系统的一部分。这种协作和竞争环境促进了创新，导致视频质量的提高和新应用的出现，这些应用有助于提高工人的生产力并使人们的生活更加有趣。​

我们的贡献。基于已发布的技术报告和我们的逆向工程，本文提出了 Sora 的背景、相关技术、新兴应用、当前限制和未来机遇的首次全面审查。​

2 背景

2.1 历史

在计算机视觉（CV）领域，在深度学习革命之前，传统的图像生成技术依赖于诸如纹理合成[5]和纹理映射[6]等方法，这些方法基于手工制作的特征。然而，这些方法在生成复杂和生动的图像方面的能力是有限的。​

Sora：大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】​

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】