🚀 TIPO: 用於提示優化的文本預採樣文本到圖像生成
TIPO是一個創新框架,旨在顯著提升文本到圖像(T2I)生成模型的質量和可用性。它利用大語言模型(LLMs)在文本到圖像生成建模的推理管道中進行“文本預採樣”,通過細化和擴展用戶輸入提示,讓生成模型輕鬆產出優質結果,使T2I系統更易使用,惠及更多用戶。
🚀 快速開始
使用DTG擴展的更新版本(重命名為z - tipo - extension),當前版本的z - tipo - extension支持stable - diffusion - webui、stable - diffusion - webui - forge和ComfyUI。SD - Next尚未經過測試。
z - tipo - extension倉庫鏈接
✨ 主要特性
- 文本預採樣:利用大語言模型在推理管道中進行文本預採樣,優化用戶輸入提示。
- 提升生成質量:使生成模型以最小的用戶工作量產生更優質的結果。
- 廣泛適用性:支持多種圖像生成相關的用戶界面,如stable - diffusion - webui等。
📚 詳細文檔
模型架構與訓練
- 模型架構:該模型採用LLaMA架構,有200M參數。
- 訓練數據:訓練數據是Danbooru2023和Coyo - HD - 11M的組合版本。
- 總處理令牌數:約50B令牌。
更多信息請參考技術報告和以下表格:
|
TIPO - 200M |
TIPO - 200M - ft |
TIPO - 500M |
架構 |
LLaMA |
LLaMA |
LLaMA |
最大上下文長度 |
1024 |
1024 |
1024 |
批量大小 |
2048 |
2048 |
3584 |
訓練數據集 |
Danbooru, GBC10M, 5epoch Danbooru, GBC10M, Coyo11M, 3epoch |
Danbooru(pixtral), Coyo11M, 2epoch |
Danbooru, GBC10M, Coyo11M, 5epoch |
實際處理令牌數* |
40B令牌 |
50B (比TIPO - 200M多10B) |
30B令牌 |
訓練硬件 |
RTX 3090 x 4 |
RTX 3090 x 4 |
H100 x 8 |
訓練時間 |
420小時 |
120小時 |
100小時 |
Huggingface鏈接 |
KBlueLeaf/TIPO - 200M · Hugging Face |
KBlueLeaf/TIPO - 200M - ft · Hugging Face |
您正在此處 |
*注:由於所有訓練數據的長度範圍非常大,我們只計算“非填充令牌”。
注:由於訓練數據相當短,與一般的LLM預訓練相比,達到相同的令牌數需要更多時間。作為參考,當最大上下文長度為4096且幾乎所有數據都達到該長度時,使用200M模型在RTX 3090 x 4上達到10B令牌數可能只需要2天。
評估
評估在TIPO - 200M模型上進行
我們在多個測試和指標中將TIPO與其他模型進行了比較:
風景標籤測試
在這個測試中,我們使用單個“風景”標籤作為輸入(帶有一些特定元數據),以測試每種提示生成方法是否能在保持圖像質量的同時獲得所需的輸出分佈。
風景標籤測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美學評分 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI損壞評分 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短/截斷長文本測試
在這個測試中,我們使用來自GBC10M和CoyoHD11M的短標題或手動截斷的標題,以檢驗提示生成方法處理接近完整提示的能力。
短文本測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美學評分 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI損壞評分 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截斷長文本測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美學評分 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI損壞評分 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
📄 許可證
該模型根據Kohaku許可證1.0發佈。您可以查看上述提供的URL或本倉庫中的LICENSE文件。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}
模型相關信息表格
屬性 |
詳情 |
模型類型 |
基於LLaMA架構的文本到圖像生成模型 |
訓練數據 |
Danbooru2023、Coyo - HD - 11M等的組合版本 |
技術報告 |
https://arxiv.org/abs/2411.08127 |
模型示例圖片 |
[點擊查看](https://cdn - uploads.huggingface.co/production/uploads/630593e2fca1d8d92b81d2a1/fc9ovmARapQmgq9DZ7ApJ.png) |