TIPO-500M-ftオープンソーステキスト-to-画像システム - 入力プロンプトを最適化して画像生成品質と使い勝手を向上させる

ホーム

TIPO 500M Ft

KBlueLeafによって開発

TIPOはテキスト事前サンプリングに基づくプロンプト最適化テキスト・トゥ・イメージシステムで、大規模言語モデルを使用してユーザー入力プロンプトを最適化し、生成モデルの品質と使いやすさを向上させます。

テキスト生成画像英語オープンソースライセンス:その他 #テキスト生成プロンプト最適化 #LLaMAアーキテクチャ #複数データセットトレーニング

ダウンロード数 10.92k

リリース時間 : 1/10/2025

モデル概要

LLaMAアーキテクチャの5億パラメータTIPOトレーニングモデルを使用し、ユーザー入力プロンプトを最適化・拡張することで、生成モデルが最小限のユーザー投入でより優れた結果を生み出せるようにします。

モデル特徴

テキスト事前サンプリング

大規模言語モデルを使用してテキスト・トゥ・イメージ推論プロセスでテキスト事前サンプリングを実行し、生成モデルの品質と使いやすさを大幅に向上させます

プロンプト最適化

ユーザー入力プロンプトを最適化・拡張し、生成モデルが最小限のユーザー投入でより優れた結果を生み出せるようにします

複数データセットトレーニング

Danbooru2023、Coyo-HD-11M、GBC10Mデータセットを統合してトレーニングを実施

モデル能力

テキスト生成

プロンプト最適化

テキストから画像生成支援

使用事例

画像生成

アート創作

ユーザー入力の簡潔なプロンプトを最適化し、高品質なアート画像を生成

生成画像の美学スコアとAI歪み率を改善

デザイン支援

デザイナー向けにより正確な画像生成プロンプト最適化を提供

デザインイテレーション回数を削減し、作業効率を向上

🚀 TIPO: プロンプト最適化のためのテキスト事前サンプリングを用いたテキストから画像への変換

TIPO用に訓練された500MパラメータのLLaMAアーキテクチャのモデルです。
技術レポート: https://arxiv.org/abs/2411.08127

image/png

🚀 クイックスタート

このプロジェクトでは、「TIPO」（Text to Image with text presampling for Prompt Optimization）という革新的なフレームワークを導入しています。これは、テキストから画像への生成モデル（T2I）の品質と使いやすさを大幅に向上させるように設計されています。TIPOは、大規模言語モデル（LLM）を利用して、テキストから画像への生成モデリングの推論パイプライン内で「テキスト事前サンプリング」を行います。ユーザーの入力プロンプトを改良および拡張することで、TIPOは生成モデルが最小限のユーザー操作で優れた結果を生み出すことを可能にし、幅広いユーザーにとってT2Iシステムをよりアクセスしやすく、効果的なものにします。

✨ 主な機能

大規模言語モデル（LLM）を用いたテキスト事前サンプリングにより、ユーザー入力プロンプトを最適化。
様々なテキストから画像への生成モデルに適用可能で、画像生成の品質を向上。
複数のテストと指標において、他のモデルと比較して良好な性能を示す。

📦 インストール

DTG拡張機能の更新バージョン（z-tipo-extensionに名称変更）を使用します。現在のz-tipo-extensionのバージョンは、stable-diffusion-webui、stable-diffusion-webui-forge、ComfyUIをサポートしています。SD-Nextは未テストです。 https://github.com/KohakuBlueleaf/z-tipo-extension

📚 ドキュメント

モデルアーキテクチャと訓練

このモデルは200MパラメータのLLaMAアーキテクチャで、訓練データはDanbooru2023とCoyo-HD-11Mの組み合わせです。
総トークン数は約50Bトークンです。
詳細については、技術レポートと以下の表を参照してください。

	TIPO-200M	TIPO-500M-ft	TIPO-500M
アーキテクチャ	LLaMA	LLaMA	LLaMA
最大コンテキスト長	1024	1024	1024
バッチサイズ	2048	3584	3584
訓練データセット	Danbooru, GBC10M, 5epoch Danbooru, GBC10M, Coyo11M, 3epoch	Danbooru(pixtral), GBC10M, Coyo11M, 2epoch	Danbooru, GBC10M, Coyo11M, 5epoch
総トークン数*	40Bトークン	42B (TIPO-500Mから12B追加)	30Bトークン
訓練ハードウェア	RTX 3090 x 4	RTX 3090 x 4	H100 x 8
訓練時間	420時間	290時間	100時間
Huggingface	KBlueLeaf/TIPO-200M · Hugging Face	このページ	KBlueLeaf/TIPO-500M · Hugging Face

*: 訓練データの長さの範囲が非常に広いため、総トークン数は「パディングされていないトークン」のみをカウントしています。
`: 訓練データが比較的短いため、一般的なLLM事前訓練と比べて同じトークン数に達するのに時間がかかります。
参考までに、最大コンテキスト長を4096とし、ほとんどのデータがその長さに達している場合、200MモデルでRTX 3090 x 4を使用すると、10Bトークンに達するのに約2日かかる可能性があります。

評価

評価はTIPO-200Mモデルで行われました
TIPOを他のモデルといくつかのテストと指標で比較しています。

風景タグテスト

このテストでは、単一の「風景」タグを入力として使用しています。（特定のメタ情報付き）
各プロンプト生成方法が、画像の品質を維持しながら、望ましい出力分布を得られるかどうかをテストします。

風景タグテスト	オリジナル	GPT4o-mini	プロンプトDB	Promptis	TIPO(当社)
FDD ↓	0.3558	0.5414	0.3247	0.2350	0.2282
審美性 ↑	5.0569	6.3676	6.1609	5.9468	6.2571
AI腐敗度 ↑	0.4257	0.7490	0.5024	0.5669	0.9195

短い/切り捨てられた長いテキストテスト

このテストでは、GBC10MとCoyoHD11Mからの短いキャプションまたは手動で切り捨てられたキャプションを使用しています。
このテストは、ほぼ完成したプロンプトを処理する際のプロンプト生成方法の能力を調べます。

短いテキスト	オリジナル	GPT4o-mini	プロンプトDB	Promptis	TIPO(当社)
FDD ↓	0.0957	0.1668	0.0980	0.1783	0.1168
審美性 ↑	5.8370	6.0589	5.8213	5.7963	5.8531
AI腐敗度 ↑	0.7113	0.6985	0.7064	0.6314	0.7131

切り捨てられた長いテキスト	オリジナル	GPT4o-mini	プロンプトDB	Promptis	TIPO(当社)
FDD ↓	0.0955	0.1683	0.1247	0.2096	0.1210
審美性 ↑	5.7497	6.0168	5.8191	5.7759	5.8364
AI腐敗度 ↑	0.6868	0.6712	0.6741	0.5925	0.7130

📄 ライセンス

このモデルはKohaku License 1.0の下で公開されています。
上記のURLを確認するか、このリポジトリ内のLICENSEファイルを確認してください。

引用

@misc{yeh2024tipotextimagetext,
      title={TIPO: Text to Image with Text Presampling for Prompt Optimization}, 
      author={Shih-Ying Yeh and Sang-Hyun Park and Giyeong Oh and Min Song and Youngjae Yu},
      year={2024},
      eprint={2411.08127},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.08127}, 
}