🚀 TIPO: Text to Image with text presampling for Prompt Optimization
このプロジェクトでは、テキストから画像への生成モデル(T2I)の品質と使いやすさを大幅に向上させる革新的なフレームワーク「TIPO」を紹介します。TIPOは、大規模言語モデル(LLM)を利用して、テキストから画像への生成モデリングの推論パイプライン内で「テキスト事前サンプリング」を行います。

🚀 クイックスタート
TIPOは、テキストから画像への生成モデルの品質と使いやすさを向上させるために開発された革新的なフレームワークです。以下の情報を参考に、TIPOを使用してみましょう。
✨ 主な機能
- テキスト事前サンプリング:大規模言語モデル(LLM)を利用して、ユーザー入力のプロンプトを精錬および拡張します。
- 高品質な画像生成:ユーザーの労力を最小限に抑えながら、生成モデルが優れた結果を生み出すことを可能にします。
- 幅広いユーザー層への対応:T2Iシステムをより多くのユーザーにアクセスしやすく、効果的なものにします。
📦 インストール
最新バージョンのDTG拡張機能(z-tipo-extensionに名称変更)を使用します。現在のz-tipo-extensionのバージョンは、stable-diffusion-webui、stable-diffusion-webui-forge、ComfyUIをサポートしています。SD-Nextは未テストです。
z-tipo-extensionのGitHubリポジトリ
📚 ドキュメント
モデルアーキテクチャとトレーニング
このモデルは200MパラメータのLLaMAアーキテクチャで、トレーニングデータはDanbooru2023とCoyo-HD-11Mの組み合わせです。総トークン数は約50Bトークンです。詳細については、技術レポートと以下の表を参照してください。
|
TIPO-200M |
TIPO-200M-ft |
TIPO-500M |
アーキテクチャ |
LLaMA |
LLaMA |
LLaMA |
最大コンテキスト長 |
1024 |
1024 |
1024 |
バッチサイズ |
2048 |
2048 |
3584 |
トレーニングデータ |
Danbooru, GBC10M, 5epoch Danbooru, GBC10M, Coyo11M, 3epoch |
Danbooru(pixtral), Coyo11M, 2epoch |
Danbooru, GBC10M, Coyo11M, 5epoch |
総トークン数 |
40Bトークン |
50B (10B more from TIPO-200M) |
30Bトークン |
トレーニングハードウェア |
RTX 3090 x 4 |
RTX 3090 x 4 |
H100 x 8 |
トレーニング時間 |
420時間 |
120時間 |
100時間 |
Huggingface |
KBlueLeaf/TIPO-200M · Hugging Face |
KBlueLeaf/TIPO-200M-ft · Hugging Face |
You Are HERE |
評価
TIPO-200Mモデルを使用して、他のモデルとの比較テストを行いました。
風景タグテスト
このテストでは、単一の「風景」タグを入力として使用します。(特定のメタ情報付き)各プロンプト生成方法が、画像の品質を維持しながら、望ましい出力分布を得られるかどうかをテストします。
風景タグテスト |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.3558 |
0.5414 |
0.3247 |
0.2350 |
0.2282 |
審美性 ↑ |
5.0569 |
6.3676 |
6.1609 |
5.9468 |
6.2571 |
AI腐敗度 ↑ |
0.4257 |
0.7490 |
0.5024 |
0.5669 |
0.9195 |
短い/切り捨てられた長いキャプションテスト
このテストでは、GBC10MとCoyoHD11Mからの短いキャプションまたは手動で切り捨てられたキャプションを使用します。このテストは、ほぼ完成したプロンプトを処理する際のプロンプト生成方法の能力を調べます。
短いキャプション |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.0957 |
0.1668 |
0.0980 |
0.1783 |
0.1168 |
審美性 ↑ |
5.8370 |
6.0589 |
5.8213 |
5.7963 |
5.8531 |
AI腐敗度 ↑ |
0.7113 |
0.6985 |
0.7064 |
0.6314 |
0.7131 |
切り捨てられた長いキャプション |
オリジナル |
GPT4o-mini |
プロンプトDB |
Promptis |
TIPO(当社) |
FDD ↓ |
0.0955 |
0.1683 |
0.1247 |
0.2096 |
0.1210 |
審美性 ↑ |
5.7497 |
6.0168 |
5.8191 |
5.7759 |
5.8364 |
AI腐敗度 ↑ |
0.6868 |
0.6712 |
0.6741 |
0.5925 |
0.7130 |
📄 ライセンス
このモデルは、Kohaku License 1.0の下で公開されています。上記のURLを確認するか、このリポジトリのLICENSEファイルを確認してください。
引用
@misc{yeh2024tipotextimagetext,
title={TIPO: Text to Image with Text Presampling for Prompt Optimization},
author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
year={2024},
eprint={2411.08127},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2411.08127},
}
情報テーブル
属性 |
詳情 |
モデルタイプ |
テキスト生成 |
トレーニングデータ |
laion/conceptual-captions-12m-webdataset、CaptionEmporium/coyo-hd-11m-llavanext、KBlueLeaf/danbooru2023-metadata-database、graph-based-captions/GBC10M |
パイプラインタグ |
テキスト生成 |
ライブラリ名 |
transformers |
技術レポート |
https://arxiv.org/abs/2411.08127 |