分享
AIGC Weekly #59
输入“/”快速插入内容
AIGC Weekly #59
飞书用户4392
2024年9月10日修改
🔗 原文链接:
https://mp.weixin.qq.com/s?__biz=Mz...
作者:歸藏 公众号:歸藏的AI工具箱
2024-02-18 15:23 北京
Synopsis 简介
汇总了春节期间人工智能领域的一些重要新闻和产品动态
1.
OpenAI发布了视频生成模型Sora,可以生成1分钟长的高质量视频。Sora支持从图像和文本生成视频,并且可以扩展和编辑视频内容。
2.
谷歌发布了语言模型Gemini 1.5 Pro和Ultra 1.0,支持长达100万字的上下文理解能力。同时推出了付费会员计划Gemini Advanced。
3.
Stability AI发布基于扩散模型的图片生成模型Stable Cascade,支持图像变化和生成。
4.
汇总了Midjourney图片生成模型的一些新功能,如默认版本升级和区域编辑能力增强。
5.
介绍了一些新的AI产品,如视频生成软件Deforum Studio,自动生成UI设计稿的工具Galileo AI,以及英伟达的本地语言模型软件Chat with RTX等。
6.
收录了一些AI领域的文章,如人工智能如何改变广告业,使用AI进行3D渲染以及Stable Diffusion潜在空间的解释等。
本篇正文共 18096 字,仔细阅读约 46 分钟
Midjourney提示词:subtle red chrome wave background --chaos 0 --ar 16:9 --style raw --weird 0
上周精选 ✦
Open AI 发布 Sora 视频生成模型
链接:
https://alpha.midjourney.com/
春节唯一王炸,Open AI为狙击谷歌发布了他们的视频生成模型Sora,这个视频模型可以生成长达1分钟的视频,在时长、稳定性、一致性和运动幅度上全部碾压现在所有的视频生成模型。
Sora的视频生成能力:
•
Sora 能够生成提供图像和提示作为输入的视频。
•
Sora 还能够在时间上向前或向后扩展视频。比如多个视频都是从生成的视频片段开始向后延伸的。因此,几个视频的开头都不同,但所有视频的结局都是相同的。使用此方法向前和向后扩展视频以产生无缝的无限循环。
•
扩散模型启用了多种根据文本提示编辑图像和视频的方法。将其中一种方法 SDEdit, 应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
•
还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
•
Sora 还能够生成图像。通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。
Sora还有一些其他的特征:
•
3D 一致性:Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。
•
长期连贯性(Long-range coherence)和物体持久性(Object permanence):是视频生成系统面临的重大挑战之一,特别是在采样长视频时维持时间上的连续性。Sora通常能够有效地处理短期和长期依赖关系,尽管并不总是如此。
•
与世界互动:Sora 有时可以用简单的方式模拟影响世界状况的行动。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
•
模拟数字世界:Sora同样能够模拟人工过程,例如视频游戏。在Minecraft中,Sora可以同时控制玩家的基本策略,还能高保真度地渲染游戏世界及其动态变化。通过使用提及“Minecraft”的字幕提示Sora,可以实现零样本(Zero-shot)地激发这些能力。
Open AI 还透露了一些训练的大概过程:
•
将视觉数据转换为Patches:探讨了如何让生成视觉数据的模型继承LLM通过在互联网规模的数据上训练,来获得广泛的能力的优势。不同于LLMs使用文本标记,Sora模型使用了“视觉补丁”(Visual Patches)。之前的研究已经显示,对于视觉数据模型而言,补丁是一种有效的表现形式。我们发现,对于训练多种类型视频和图像的生成模型而言,补丁是一种高效且可大规模扩展的表现形式。
•
视频压缩网络:训练了一个可以降低视觉数据维度的网络。该网络以原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练,并随后生成视频。还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。
•
时空潜在Patches:在处理一个压缩后的输入视频时,会提取一系列的“时空补丁”(spacetime patches),这些补丁在这里起到了类似于变换器(Transformer)中的“标记”(tokens)的作用。这种方法同样适用于图像处理,因为从本质上讲,图像就是只有一帧的视频。采用的基于补丁的表示方法,使得Sora能够处理不同分辨率、时长和宽高比的视频和图像。
•
用于视频生成的Scaling transformers:Sora是一种扩散模型;它主要的作用是,给定输入的带有噪声的补丁(以及如文本提示这样的条件信息),Sora被训练来预测并还原出原始的“干净”补丁。更为关键的是,Sora实际上是一个“扩散变换器”(diffusion transformer)。扩散变换器在视频模型中也能有效扩展。随着训练计算量的增加,样本质量显著提高。
一些关于技术原理的补充阅读:
•
Open AI官方发布的技术报告,演示视频基本都来自这里:
https://openai.com/research/video-generation-models-as-world-simulators
•
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释:
https://x.com/op7418/status/1758822875707154838?s=20