为了提升文生图模型的语义理解能力,Imagen 首先提出了使用 T5 作为文本编码器,并指出了 scaling 文本编码器比 scaling 生图 UNet 带来的提升要显著得多。自此,新的文生图模型纷纷优化文本编码器的能力,有的引入更大更强的 T5-XXL(如 Imagen、Pixart),有的将多个 CLIP 或 T5 的特征结合起来(如 SDXL、SD3)作为文本条件。然而,现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的 Hunyuan-DiT,才有了一个比较可用的中文生图模型。Hunyuan-DiT 使用了双语的 CLIP 模型加多语言的 T5 模型来作为文本编码器。但是由于多语言 T5 的训练预料中中文占比太少(只有 2%),而 CLIP 又受限于本身训练目标,细粒度的文本理解能力较差。因此,目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。