🚀 TIPO: 用于提示优化的文本预采样文本到图像生成
TIPO是一个创新框架,旨在显著提升文本到图像(T2I)生成模型的质量和可用性。它利用大语言模型(LLMs)在文本到图像生成建模的推理管道中进行“文本预采样”,通过细化和扩展用户输入提示,让生成模型轻松产出优质结果,使T2I系统更易使用,惠及更多用户。
🚀 快速开始
使用DTG扩展的更新版本(重命名为z - tipo - extension),当前版本的z - tipo - extension支持stable - diffusion - webui、stable - diffusion - webui - forge和ComfyUI。SD - Next尚未经过测试。
z - tipo - extension仓库链接
✨ 主要特性
- 文本预采样:利用大语言模型在推理管道中进行文本预采样,优化用户输入提示。
- 提升生成质量:使生成模型以最小的用户工作量产生更优质的结果。
- 广泛适用性:支持多种图像生成相关的用户界面,如stable - diffusion - webui等。
📚 详细文档
模型架构与训练
- 模型架构:该模型采用LLaMA架构,有200M参数。
- 训练数据:训练数据是Danbooru2023和Coyo - HD - 11M的组合版本。
- 总处理令牌数:约50B令牌。
更多信息请参考技术报告和以下表格:
|
TIPO - 200M |
TIPO - 200M - ft |
TIPO - 500M |
架构 |
LLaMA |
LLaMA |
LLaMA |
最大上下文长度 |
1024 |
1024 |
1024 |
批量大小 |
2048 |
2048 |
3584 |
训练数据集 |
Danbooru, GBC10M, 5epoch Danbooru, GBC10M, Coyo11M, 3epoch |
Danbooru(pixtral), Coyo11M, 2epoch |
Danbooru, GBC10M, Coyo11M, 5epoch |
实际处理令牌数* |
40B令牌 |
50B (比TIPO - 200M多10B) |
30B令牌 |
训练硬件 |
RTX 3090 x 4 |
RTX 3090 x 4 |
H100 x 8 |
训练时间 |
420小时 |
120小时 |
100小时 |
Huggingface链接 |
KBlueLeaf/TIPO - 200M · Hugging Face |
KBlueLeaf/TIPO - 200M - ft · Hugging Face |
您正在此处 |
*注:由于所有训练数据的长度范围非常大,我们只计算“非填充令牌”。
注:由于训练数据相当短,与一般的LLM预训练相比,达到相同的令牌数需要更多时间。作为参考,当最大上下文长度为4096且几乎所有数据都达到该长度时,使用200M模型在RTX 3090 x 4上达到10B令牌数可能只需要2天。
评估
评估在TIPO - 200M模型上进行
我们在多个测试和指标中将TIPO与其他模型进行了比较:
风景标签测试
在这个测试中,我们使用单个“风景”标签作为输入(带有一些特定元数据),以测试每种提示生成方法是否能在保持图像质量的同时获得所需的输出分布。
风景标签测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美学评分 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI损坏评分 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短/截断长文本测试
在这个测试中,我们使用来自GBC10M和CoyoHD11M的短标题或手动截断的标题,以检验提示生成方法处理接近完整提示的能力。
短文本测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美学评分 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI损坏评分 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截断长文本测试 |
原始方法 |
GPT4o - mini |
提示数据库 |
Promptis |
TIPO(我们的方法) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美学评分 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI损坏评分 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
📄 许可证
该模型根据Kohaku许可证1.0发布。您可以查看上述提供的URL或本仓库中的LICENSE文件。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}
模型相关信息表格
属性 |
详情 |
模型类型 |
基于LLaMA架构的文本到图像生成模型 |
训练数据 |
Danbooru2023、Coyo - HD - 11M等的组合版本 |
技术报告 |
https://arxiv.org/abs/2411.08127 |
模型示例图片 |
[点击查看](https://cdn - uploads.huggingface.co/production/uploads/630593e2fca1d8d92b81d2a1/fc9ovmARapQmgq9DZ7ApJ.png) |