Kolors 可图模型能力及优质咒语书

模型介绍

可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练，在视觉质量、复杂语义理解、文字生成（中英文字符）等方面，相比于开源/闭源模型，都展示出了巨大的优势。同时，Kolors 支持中英双语，在中文特色内容理解方面更具竞争力。

语义理解能力

Kolors 从模型和数据两方面来提升文生图模型的语义理解能力。模型方面，Kolors 选用了强大的中文 LLM ChatGLM 来作为文本编码器；数据方面，Kolors 使用 MLLM 机造细节丰富的高质量文本描述。

更强的文本编码器

文本编码器的能力是文生图模型的语义理解能力的关键。一开始，大部分文生图模型使用 CLIP（如 SD、DALL-E 2）来作为文本编码器。CLIP 目标通过图文对比学习训练，来建模视觉语言联合表征空间，是多模态学习领域里程碑式的工作，用于文生图模型的文本编码是很自然的想法。然而，受到训练目标监督粒度的限制，CLIP 对于一张图中有多个物体，有不同属性、位置的复杂情况通常理解得较差。表现在生图模型上，就会出现生图结果属性绑定错乱的问题。另外，原始 CLIP 模型文本编码的最大长度也很有限，只有 77。

为了提升文生图模型的语义理解能力，Imagen 首先提出了使用 T5 作为文本编码器，并指出了 scaling 文本编码器比 scaling 生图 UNet 带来的提升要显著得多。自此，新的文生图模型纷纷优化文本编码器的能力，有的引入更大更强的 T5-XXL（如 Imagen、Pixart），有的将多个 CLIP 或 T5 的特征结合起来（如 SDXL、SD3）作为文本条件。然而，现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的 Hunyuan-DiT，才有了一个比较可用的中文生图模型。Hunyuan-DiT 使用了双语的 CLIP 模型加多语言的 T5 模型来作为文本编码器。但是由于多语言 T5 的训练预料中中文占比太少（只有 2%），而 CLIP 又受限于本身训练目标，细粒度的文本理解能力较差。因此，目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。

Kolors 针对这一问题，选择直接使用大语言模型进行文本编码。具体来说，Kolors 使用了 ChatGLM-6B-Base 模型，这是一个中英双语的大语言基座模型。这里没有选择其 SFT 版本 ChatGLM-6B 是因为作者认为未经对齐人类偏好的基座模型反而更适合文本特征的提取。在最大编码长度方面，ChatGLM 也更高，达到了 256。与 SDXL 一样，Kolors 取文本编码器的倒数第二层特征作为文本条件。

Kolors社区微调模型

Kolors-可丽（Kolors Girl）人体科学中英文LoRA 【点击直达】

Kolors-可丽（Kolors Girl）人体科学中英文LoRA - 可图KOLORSGirl | Stable Diffusion Model - LoRA | Tensor.Art (tusiart.com )

使用 MLLM 生成细节更丰富的文本描述

要增强文生图模型的语义理解能力，除了更强大的模型结构之外，更重要的是训练数据。一开始，文生图模型都是使用网络上的图文对数据进行训练，而这些图文对不可避免地存在不准确、细节不够丰富的问题，因此用于文生图模型的训练质量不够高。DALL-E 3 首先提出使用 image captioner 模型机造生成细节丰富的高质量文本描述。最近的文生图模型中，recaption 机造数据几乎已经是标配。

那么，开源 MLLM 那么多，用哪个呢？Kolors 通过 5 个指标（长度、完整度、正确性、幻觉、主观性）来评估 MLLM 生成 caption 的质量。经综合比较，GPT4V 和 CogVLM 生成的 caption 质量较高，再考虑成本，Kolors 最终选用了 CogVLM 来生成 caption。并且，除了 GPT4-V 和 InternVL-XComposer 之外，作者发现直接生成的中文 caption 质量明显差于英文 caption，因此作者选择先生成英文 caption 然后翻译为中文。

MLLM 机造 caption 的质量虽然比原 caption 高，但是有些原 caption 包含的专有名词（如故宫、月饼）却是无法由 MLLM 生成出来。因此，Kolors 选择原始 caption 和机造 caption 50:50 的比例来进行训练，这与 SD3 的策略相同。

有了强大的文本编码器模型和高质量的 caption 数据，Kolors 展现出了强大的复杂中文提示词理解能力。从下图可以看到，使用 GLM 作为文本编码器的 Kolors 对提示词内容的生成更完整，且属性绑定正确。

中文文本渲染能力

准确生成文字的能力一直是文生图模型的一大难题。DALL-E 3 和 SD3 已经有了很强的英文文字生成能力。但是，目前还未有模型具有中文文字的生成能力。中文文字的生成有两点困难：一是相比于英文呢，中文汉字的集合太大，而且纹理结构更复杂；二是缺少中文文字的图文对数据。

为了提升中文文字的生成能力，Kolors 从两个方面准备数据。一是选择 50000 个最常用的汉字，机造生成了一个千万级的中文文字图文对数据集。但是机造数据毕竟真实性不足。因此，第二方面又实用 OCR 和 MLLM 生成了海报、场景文字等真实中文文字数据集，大概有百万量级。

作者观察到，虽然使用机造数据一开始中文文字的生成能力的真实性比较差，但是在结合高质量真实数据之后，真实性大大提升，而且即使是真实数据中不存在的汉字的真实性也得到了提升。

图片视觉质量

作为一个生图模型，好不好看，自然才是最关键的指标。Kolors 从数据和训练方法两方面入手，提升图片视觉质量。在网络结构方面，Kolors 没有进行改动，仍旧使用与 SDXL 一致的 UNet 结构。

高质量数据

Kolors 的训练分为概念学习和质量提升两个阶段。在概念学习阶段，Kolors 在十亿级的图文对数据集上进行训练，该阶段的数据包括开源的 LAION、DataComp、JourneyDB 等，也包括一些公司的内部数据。通过平衡各个类的样本数量，确保在该阶段能够学习到广泛的视觉概念。这是所有文生图模型训练都包含的过程。

重点在第二阶段，质量提升阶段，训练重点转移到提升图像的细节和美学质量，以及高分辨率的训练。笔者印象中，视觉质量提升阶段的重要性应当是 Meta 的 Emu 首先指出的，后来的 Playground V2.5 等模型也都加入了视觉质量提升阶段的训练。实际上，可以将第一阶段概念学习阶段类别为 LLM 的纯自回归的预训练阶段，将第二阶段的质量提升阶段类比为 LLM 对齐人类偏好的 SFT 阶段。类比 LLM，文生图模型的两阶段训练也可以看作是第一阶段学习大量的知识和概念，第二阶段对齐人类的美学偏好。

为了获取高质量的数据集，Kolors 首先使用常规的过滤策略（如分辨率、OCR 准确率、人脸数量、清晰度、美学分等）将图文对数据量级过滤到千万级。然后，将图片的质量划分为 5 个等级，人标！最终得到了百万量级的高质量图片。