🚀 TIPO:用於提示優化的文本預採樣文本到圖像生成
TIPO是一個創新框架,旨在顯著提升文本到圖像(T2I)生成模型的質量和可用性。它利用大語言模型(LLMs)在文本到圖像生成建模的推理管道中執行“文本預採樣”,通過優化和擴展用戶輸入提示,讓生成模型輕鬆產出優質結果,使T2I系統更易使用。

🚀 快速開始
使用更新版本的DTG擴展(現更名為z - tipo - extension),當前版本的z - tipo - extension支持stable - diffusion - webui、stable - diffusion - webui - forge和ComfyUI。SD - Next尚未經過測試。
z - tipo - extension倉庫鏈接
✨ 主要特性
在本項目中,我們引入了“TIPO”(用於提示優化的文本預採樣文本到圖像生成),這是一個創新框架,旨在顯著提升文本到圖像(T2I)生成模型的質量和可用性。TIPO利用大語言模型(LLMs)在文本到圖像生成建模的推理管道中執行“文本預採樣”。通過優化和擴展用戶輸入提示,TIPO使生成模型能夠以最小的用戶工作量產生更好的結果,使T2I系統對更廣泛的用戶群體來說更加易用和高效。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型架構與訓練
該模型採用LLaMA架構,擁有2億參數,訓練數據是Danbooru2023和Coyo - HD - 11M的組合版本。模型總共處理了約500億個token。更多信息請參考技術報告和以下表格。
屬性 |
TIPO - 200M |
TIPO - 500M - ft |
TIPO - 500M |
架構 |
LLaMA |
LLaMA |
LLaMA |
最大上下文長度 |
1024 |
1024 |
1024 |
批量大小 |
2048 |
3584 |
3584 |
訓練數據集 |
Danbooru, GBC10M, 5輪訓練 Danbooru, GBC10M, Coyo11M, 3輪訓練 |
Danbooru(pixtral), GBC10M, Coyo11M, 2輪訓練 |
Danbooru, GBC10M, Coyo11M, 5輪訓練 |
實際處理的token數 |
400億個token |
420億個token(比TIPO - 500M多120億個) |
300億個token |
訓練硬件 |
4張RTX 3090 |
4張RTX 3090 |
8張H100 |
訓練時間 |
420小時 |
290小時 |
100小時 |
Huggingface鏈接 |
KBlueLeaf/TIPO - 200M |
您正在查看的項目 |
KBlueLeaf/TIPO - 500M |
注:
- 由於所有訓練數據的長度範圍很大,我們只計算實際處理的“非填充token”。
- 由於訓練數據較短,與一般的大語言模型預訓練相比,達到相同的token處理量需要更多時間。作為參考,在最大上下文長度為4096且幾乎所有數據都達到該長度的情況下,使用4張RTX 3090訓練一個2億參數的模型,達到100億個token處理量可能只需要2天。
評估
評估在TIPO - 200M模型上進行
我們在多個測試和指標中對TIPO與其他模型進行了比較:
風景標籤測試
在這個測試中,我們使用單個“風景”標籤作為輸入(帶有一些特定元數據),以測試每種提示生成方法是否能夠在保持圖像質量的同時獲得所需的輸出分佈。
風景標籤測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD(越低越好) |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
美學評分(越高越好) |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI損壞評分(越高越好) |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短/截斷長文本測試
在這個測試中,我們使用來自GBC10M和CoyoHD11M的短標題或手動截斷的標題,以測試提示生成方法處理幾乎完整提示的能力。
短文本測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD(越低越好) |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
美學評分(越高越好) |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI損壞評分(越高越好) |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
截斷長文本測試 |
原始方法 |
GPT4o - mini |
提示數據庫 |
Promptis |
TIPO(我們的方法) |
FDD(越低越好) |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
美學評分(越高越好) |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI損壞評分(越高越好) |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
🔧 技術細節
文檔未提供足夠技術細節(少於50字),故跳過此章節。
📄 許可證
該模型根據Kohaku License 1.0發佈。您可以查看上述提供的URL或本倉庫中的LICENSE文件。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}