中学生能看懂：快手「可灵」和「Sora」背后 DiT 技术

⚽

金色传说大聪明赛博禅心 2024-06-09

原文链接：https://mp.weixin.qq.com/s/2PrMgNAL0Er_vNjhqSbTHQ

写在前面

本文作者：大聪明 GPT v2.0

下为正文，文末附 prompt

common.docs_name - LarkCCM_Docs_Menu_Image

Diffusion 模型的运作，像是在玩一个“加噪声再还原”的游戏。想象一下，我们把一张清晰的图片比作一杯清水。Diffusion 模型一开始会慢慢往这杯清水里滴入墨汁，让水变得越来越浑浊，最终变成一杯完全看不清的墨水。这个过程就是“加噪声”。​

有趣的是，Diffusion 模型接下来要做的，就是想办法把这杯浑浊的墨水还原成最初的清水。怎么做呢？它会学习“加噪声”的逆过程，一步一步地去除噪声，就像把墨水从水中慢慢分离出来一样，最终恢复成清晰的图片。​

为了更好地学习噪声和图像之间的关系，DiT 模型巧妙地引入了 Transformer 架构。Transformer 最厉害的地方在于它拥有“注意力机制”，就像我们在阅读文章时，会特别关注一些关键词一样，注意力机制能让模型学会抓住数据中的关键信息。​

DiT 模型将 Transformer 架构应用于 Diffusion 模型中，就好像给模型戴上了一副“眼镜”，让它能够更清楚地看到噪声和图像之间的联系，从而更精准地去除噪声，生成更高质量的图像。​

Diffusion 模型的基本原理

​
Diffusion 模型的精妙之处在于它颠覆了传统的绘画方式。想象一下，我们不是在一张白纸上作画，而是先将一幅完整的画作逐渐添加噪声，就像将颜料一点一点地涂抹在画布上，最终让画面变得一片模糊，完全看不出原本的模样。这个过程就像墨水在清水中扩散，最终均匀地分散，再也无法分辨最初的墨滴。​

更令人惊叹的是，Diffusion 模型不仅学会了如何“破坏”，更掌握了如何“重建”。它能够将被噪声污染的模糊图像一步步地还原，最终恢复成最初清晰的画面。这就好比将混着墨水的清水一点点净化，Diffusion 模型会仔细分析图像中颜色的分布规律，判断哪些颜色是后期添加的噪声，然后像魔法师一样，将这些噪声逐一擦除。​

为了更精细地控制“添加噪声”和“去除噪声”的过程，Diffusion 模型将这两个过程都分解成许多个小步骤。在每一个步骤中，添加或去除的噪声都非常少，就像画家用画笔轻轻地描绘，一点一点地改变着画面。模型会记录下每一步操作后的图像状态，我们称之为“时间步长”。“时间步长”就像是指引模型还原图像的路标，告诉模型当前处于还原过程的哪个阶段。模型只需要根据“时间步长”的信息，就可以知道下一步应该去除哪些噪声，最终像倒放电影一样，将被噪声污染的图像逐步还原成最初的清晰模样。​

Transformer 架构的引入，为 Diffusion 模型的图像生成能力带来了质的飞跃。​

Transformer 架构的作用

​
前面我们了解到 Diffusion 模型的工作原理，就像是一位技艺高超的画家，先是用噪音把图像完全遮盖，再一步步地去除噪音，最终创作出一幅完整的作品。那么，在 DiT 模型中，是谁充当着这位画家的角色呢？答案就是 Transformer。​

Transformer 模型就像是由许多个“注意力模块”搭建起来的，每个模块都像是一个聪明的观察者，能够分析图像中不同部分之间的关系。还是以“我喜欢吃苹果”这句话为例，Transformer 会注意到“喜欢”和“苹果”之间的联系，从而更加重视“苹果”这个词，而相对弱化“吃”这个词。​

在 DiT 图像生成模型中，Transformer 就如同一位经验丰富的指挥家，它引导模型关注图像的关键信息。例如，天空的颜色和云朵的形状之间存在着某种联系，Transformer 能够学习到这种联系，并指导模型生成更加真实自然的图像。​

DiT 的训练过程

​
Transformer 架构赋予了 DiT 模型强大的图像处理能力。那么，我们是如何训练 DiT 模型的呢？​

简单来说，训练过程就像教一位绘画新手学习创作。首先，我们会向 DiT 模型展示大量的清晰图像，就像给新手展示大师级的作品，让模型明白学习的目标。接着，我们逐步向图像添加噪声，就好像在画布上逐渐涂抹颜料，最终图像会被噪声完全覆盖，变得难以辨认。​

DiT 模型的任务就是从这些被噪声遮蔽的图像中，还原出原始的清晰图像。这个过程就像新手画家临摹大师作品，从模糊的轮廓开始，逐步完善细节和色彩，最终完成作品。为了记录每一步添加噪声的程度，我们引入了“时间步长嵌入”的概念，就像记录学习过程的日记。模型可以根据“时间步长”信息，逐步去除图像噪声，最终还原出清晰的原始图像。​

当然，这个训练过程需要海量的数据和强大的计算资源，就像绘画需要丰富的素材和宽敞的工作室。模型通过“观摩”海量的图像素材，学习如何表达物体、颜色和纹理。强大的计算资源则为模型提供了高效的学习环境，使其能够快速处理数据，不断优化算法，最终成为技艺精湛的“绘画大师”。DiT 模型正是通过这样的训练过程，掌握了从噪声中生成清晰图像的能力。​

利用学习到的强大能力，DiT 模型在多个图像生成任务中表现出色。​

DiT 的应用

中学生能看懂：快手「可灵」和「Sora」背后 DiT 技术​

中学生能看懂：快手「可灵」和「Sora」背后 DiT 技术