在 DiT 图像生成模型中,Transformer 就如同一位经验丰富的指挥家,它引导模型关注图像的关键信息。例如,天空的颜色和云朵的形状之间存在着某种联系,Transformer 能够学习到这种联系,并指导模型生成更加真实自然的图像。
DiT 的训练过程
Transformer 架构赋予了 DiT 模型强大的图像处理能力。那么,我们是如何训练 DiT 模型的呢?
简单来说,训练过程就像教一位绘画新手学习创作。首先,我们会向 DiT 模型展示大量的清晰图像,就像给新手展示大师级的作品,让模型明白学习的目标。接着,我们逐步向图像添加噪声,就好像在画布上逐渐涂抹颜料,最终图像会被噪声完全覆盖,变得难以辨认。
DiT 模型的任务就是从这些被噪声遮蔽的图像中,还原出原始的清晰图像。这个过程就像新手画家临摹大师作品,从模糊的轮廓开始,逐步完善细节和色彩,最终完成作品。为了记录每一步添加噪声的程度,我们引入了“时间步长嵌入”的概念,就像记录学习过程的日记。模型可以根据“时间步长”信息,逐步去除图像噪声,最终还原出清晰的原始图像。