🚀 TIPO:用于提示优化的文本预采样文本到图像生成
TIPO是一个创新框架,旨在显著提升文本到图像(T2I)生成模型的质量和可用性。它利用大语言模型(LLMs)在文本到图像生成建模的推理管道中执行“文本预采样”,通过优化和扩展用户输入提示,让生成模型轻松产出优质结果,使T2I系统更易使用。

🚀 快速开始
使用更新版本的DTG扩展(现更名为z - tipo - extension),当前版本的z - tipo - extension支持stable - diffusion - webui、stable - diffusion - webui - forge和ComfyUI。SD - Next尚未经过测试。
z - tipo - extension仓库链接
✨ 主要特性
在本项目中,我们引入了“TIPO”(用于提示优化的文本预采样文本到图像生成),这是一个创新框架,旨在显著提升文本到图像(T2I)生成模型的质量和可用性。TIPO利用大语言模型(LLMs)在文本到图像生成建模的推理管道中执行“文本预采样”。通过优化和扩展用户输入提示,TIPO使生成模型能够以最小的用户工作量产生更好的结果,使T2I系统对更广泛的用户群体来说更加易用和高效。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型架构与训练
该模型采用LLaMA架构,拥有2亿参数,训练数据是Danbooru2023和Coyo - HD - 11M的组合版本。模型总共处理了约500亿个token。更多信息请参考技术报告和以下表格。
属性 |
TIPO - 200M |
TIPO - 500M - ft |
TIPO - 500M |
架构 |
LLaMA |
LLaMA |
LLaMA |
最大上下文长度 |
1024 |
1024 |
1024 |
批量大小 |
2048 |
3584 |
3584 |
训练数据集 |
Danbooru, GBC10M, 5轮训练 Danbooru, GBC10M, Coyo11M, 3轮训练 |
Danbooru(pixtral), GBC10M, Coyo11M, 2轮训练 |
Danbooru, GBC10M, Coyo11M, 5轮训练 |
实际处理的token数 |
400亿个token |
420亿个token(比TIPO - 500M多120亿个) |
300亿个token |
训练硬件 |
4张RTX 3090 |
4张RTX 3090 |
8张H100 |
训练时间 |
420小时 |
290小时 |
100小时 |
Huggingface链接 |
KBlueLeaf/TIPO - 200M |
您正在查看的项目 |
KBlueLeaf/TIPO - 500M |
注:
- 由于所有训练数据的长度范围很大,我们只计算实际处理的“非填充token”。
- 由于训练数据较短,与一般的大语言模型预训练相比,达到相同的token处理量需要更多时间。作为参考,在最大上下文长度为4096且几乎所有数据都达到该长度的情况下,使用4张RTX 3090训练一个2亿参数的模型,达到100亿个token处理量可能只需要2天。
评估
评估在TIPO - 200M模型上进行
我们在多个测试和指标中对TIPO与其他模型进行了比较:
风景标签测试
在这个测试中,我们使用单个“风景”标签作为输入(带有一些特定元数据),以测试每种提示生成方法是否能够在保持图像质量的同时获得所需的输出分布。
风景标签测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD(越低越好) |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美学评分(越高越好) |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI损坏评分(越高越好) |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短/截断长文本测试
在这个测试中,我们使用来自GBC10M和CoyoHD11M的短标题或手动截断的标题,以测试提示生成方法处理几乎完整提示的能力。
短文本测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD(越低越好) |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美学评分(越高越好) |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI损坏评分(越高越好) |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截断长文本测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD(越低越好) |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美学评分(越高越好) |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI损坏评分(越高越好) |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
🔧 技术细节
文档未提供足够技术细节(少于50字),故跳过此章节。
📄 许可证
该模型根据Kohaku License 1.0发布。您可以查看上述提供的URL或本仓库中的LICENSE文件。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}