🚀 TIPO: プロンプト最適化のためのテキスト事前サンプリングを用いたテキストから画像への変換
TIPO用に訓練された500MパラメータのLLaMAアーキテクチャのモデルです。
技術レポート: https://arxiv.org/abs/2411.08127

🚀 クイックスタート
このプロジェクトでは、「TIPO」(Text to Image with text presampling for Prompt Optimization)という革新的なフレームワークを導入しています。これは、テキストから画像への生成モデル(T2I)の品質と使いやすさを大幅に向上させるように設計されています。TIPOは、大規模言語モデル(LLM)を利用して、テキストから画像への生成モデリングの推論パイプライン内で「テキスト事前サンプリング」を行います。ユーザーの入力プロンプトを改良および拡張することで、TIPOは生成モデルが最小限のユーザー操作で優れた結果を生み出すことを可能にし、幅広いユーザーにとってT2Iシステムをよりアクセスしやすく、効果的なものにします。
✨ 主な機能
- 大規模言語モデル(LLM)を用いたテキスト事前サンプリングにより、ユーザー入力プロンプトを最適化。
- 様々なテキストから画像への生成モデルに適用可能で、画像生成の品質を向上。
- 複数のテストと指標において、他のモデルと比較して良好な性能を示す。
📦 インストール
DTG拡張機能の更新バージョン(z-tipo-extensionに名称変更)を使用します。現在のz-tipo-extensionのバージョンは、stable-diffusion-webui、stable-diffusion-webui-forge、ComfyUIをサポートしています。SD-Nextは未テストです。
https://github.com/KohakuBlueleaf/z-tipo-extension
📚 ドキュメント
モデルアーキテクチャと訓練
このモデルは200MパラメータのLLaMAアーキテクチャで、訓練データはDanbooru2023とCoyo-HD-11Mの組み合わせです。
総トークン数は約50Bトークンです。
詳細については、技術レポートと以下の表を参照してください。
|
TIPO-200M |
TIPO-500M-ft |
TIPO-500M |
アーキテクチャ |
LLaMA |
LLaMA |
LLaMA |
最大コンテキスト長 |
1024 |
1024 |
1024 |
バッチサイズ |
2048 |
3584 |
3584 |
訓練データセット |
Danbooru, GBC10M, 5epoch Danbooru, GBC10M, Coyo11M, 3epoch |
Danbooru(pixtral), GBC10M, Coyo11M, 2epoch |
Danbooru, GBC10M, Coyo11M, 5epoch |
総トークン数* |
40Bトークン |
42B (TIPO-500Mから12B追加) |
30Bトークン |
訓練ハードウェア |
RTX 3090 x 4 |
RTX 3090 x 4 |
H100 x 8 |
訓練時間 |
420時間 |
290時間 |
100時間 |
Huggingface |
KBlueLeaf/TIPO-200M · Hugging Face |
このページ |
KBlueLeaf/TIPO-500M · Hugging Face |
*: 訓練データの長さの範囲が非常に広いため、総トークン数は「パディングされていないトークン」のみをカウントしています。
`: 訓練データが比較的短いため、一般的なLLM事前訓練と比べて同じトークン数に達するのに時間がかかります。
参考までに、最大コンテキスト長を4096とし、ほとんどのデータがその長さに達している場合、200MモデルでRTX 3090 x 4を使用すると、10Bトークンに達するのに約2日かかる可能性があります。
評価
評価はTIPO-200Mモデルで行われました
TIPOを他のモデルといくつかのテストと指標で比較しています。
風景タグテスト
このテストでは、単一の「風景」タグを入力として使用しています。(特定のメタ情報付き)
各プロンプト生成方法が、画像の品質を維持しながら、望ましい出力分布を得られるかどうかをテストします。
風景タグテスト |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
審美性 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI腐敗度 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短い/切り捨てられた長いテキストテスト
このテストでは、GBC10MとCoyoHD11Mからの短いキャプションまたは手動で切り捨てられたキャプションを使用しています。
このテストは、ほぼ完成したプロンプトを処理する際のプロンプト生成方法の能力を調べます。
短いテキスト |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
審美性 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI腐敗度 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
切り捨てられた長いテキスト |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
審美性 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI腐敗度 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
📄 ライセンス
このモデルはKohaku License 1.0の下で公開されています。
上記のURLを確認するか、このリポジトリ内のLICENSEファイルを確認してください。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}