2024 / 9 / 30
背景:讨论Stable Diffusion及其在图像生成领域的进展,特别是SDXL模型的优势。
问题陈述:指出动漫和插画生成模型的发展缓慢,缺乏大规模开源模型和严格的数据集要求。
模型介绍:介绍Illustrious模型的特点,包括高分辨率图像生成和准确的角色解剖表现。
3.1.1 数据集偏差:分析Danbooru数据集中性别比例失衡的问题。
3.1.2 数据预处理:描述标签排序和其他预处理方法。
3.1.3 分辨率:讨论不同版本模型的训练分辨率。
3.1.4 有限语料:指出Danbooru标签词汇的局限性。
仅通过标签及其顺序体现上下文关系从而实现复杂的图像生成是非常困难的,为此有必要引入自然语言,多级提示允许为同一幅图像提供多个描述,这些描述包括简单标签和详细的自然语言。这种方式使得模型能够获得更丰富的上下文信息,从而更好地理解图像中各个元素之间的关系。
细致控制:在图像生成过程中,多级提示使得模型能够更精确地控制生成内容。例如,用户可以通过详细描述来指定角色的位置、动作和情感状态,使得生成的图像更加符合用户的期望。
适应性强:通过使用自然语言与标签结合的方式,多级提示能够适应不同类型的输入,提升模型对复杂场景的理解能力。这种灵活性使得模型在处理各种输入时表现得更加出色。
合成数据集:为了弥补Danbooru数据集中性别不平衡和标签稀疏的问题,作者引入了合成数据集。这些合成数据是基于生成的图像和相应的描述生成的,有助于丰富训练数据,提高模型对不同角色的理解能力。
标签重组和过滤:在训练过程中,作者对原始标签进行了重组和手动过滤,以去除不相关或模糊的标签。这一过程旨在提高数据集的质量,使得模型能够更好地学习到关键概念。
无丢弃标记策略:在训练过程中,作者采用了无丢弃标记策略,确保特定的敏感标记在训练中始终保留,以提高模型对这些概念的识别能力。
余弦退火调度:使用余弦退火调度来调整学习率,以实现更稳定的训练过程,帮助模型更好地收敛。
对比学习与弱概率丢弃:通过对比学习的方法,提升了模型对角色名称和艺术风格的理解,同时允许其他标记按照设定概率被丢弃,从而增强了模型的学习效果。
版本 | 改进 | 不足 |
---|---|---|
Illustrious v0.1 | - 基于SDXL架构,采用双CLIP文本编码器,增强文本理解能力。 - 使用7.5M的Danbooru数据集,进行标签重组和手动过滤,提高数据质量。 - 引入无丢弃标记策略,确保特定敏感标记在训练中保留。 | - 生成质量不足,细节表现差。 - 性别不平衡,男性角色生成能力较弱。 - 对复杂或长文本提示的理解不准确。 |
Illustrious v1.0 | - 支持1536x1536的图像生成,提升图像质量。 - 使用10M的数据集,增强泛化能力。 - 引入标签操作和注册标记,提高对特定概念的学习能力。 | - 在处理复杂场景时仍可能不稳定。 - 依赖标签元数据,难以描述多维度图像。 |
Illustrious v1.1 | - 引入多级提示,提高对复杂输入的理解能力。 - 使用更大的批量大小(512),加快学习速度。 - 数据集进一步丰富,使用12M的数据集。 | - 生成特定角色倾向性,缺乏多样性。 - 对于非常长或复杂的自然语言提示仍有局限。 |
Illustrious v2.0 | - 能够生成高达20MP的图像,进一步提升图像质量。 - 采用多级提示方法,提高复杂场景的理解和生成能力。 - 引入余弦退火调度和对比学习方法,提高训练稳定性和效果。 | - CLIP编码器局限性依然存在,处理复杂组合时表现不佳。 - 对于长文本提示理解能力有限。 |