🚀 HiDream-I1
HiDream-I1
は、170億のパラメータを持つ新しいオープンソースの画像生成基礎モデルで、数秒で最先端の画像生成品質を実現します。

当社製品のさらなる機能や全能力を体験するには、https://vivago.ai/ をご訪問ください。
🚀 クイックスタート
Flash Attention をインストールしてください。手動インストールではCUDAバージョン12.4を推奨します。
pip install -r requirements.txt
GitHubリポジトリをクローンします。
git clone https://github.com/HiDream-ai/HiDream-I1
その後、推論スクリプトを実行して画像を生成できます。
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
⚠️ 重要提示
推論スクリプトは自動的に meta-llama/Meta-Llama-3.1-8B-Instruct
モデルファイルをダウンロードします。ネットワークの問題が発生した場合は、事前にこれらのファイルをダウンロードし、適切なキャッシュディレクトリに配置することで、推論中のダウンロード失敗を回避できます。
✨ 主な機能
- ✨ 卓越した画像品質 - 写実的、カートゥーン、アートなど、複数のスタイルで優れた結果を生み出します。最先端のHPS v2.1スコアを達成し、人間の好みに合致します。
- 🎯 最高水準のプロンプト追従性 - GenEvalおよびDPGベンチマークで業界最高のスコアを達成し、他のすべてのオープンソースモデルを上回ります。
- 🔓 オープンソース - 科学の進歩を促進し、創造的な革新を可能にするために、MITライセンスの下で公開されています。
- 💼 商用利用にも適しています - 生成された画像は、個人プロジェクト、科学研究、商用アプリケーションに自由に使用できます。
📦 インストール
- Flash Attention をインストールします。推奨CUDAバージョンは12.4です。
- 依存関係をインストールします。
pip install -r requirements.txt
- GitHubリポジトリをクローンします。
git clone https://github.com/HiDream-ai/HiDream-I1
💻 使用例
基本的な使用法
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
📚 ドキュメント
プロジェクトの更新情報
Gradioデモ
対話型の画像生成のためのGradioデモも提供しています。以下のコマンドでデモを実行できます。
python gradio_demo.py
評価指標
DPG-Bench
モデル |
全体 |
グローバル |
エンティティ |
属性 |
関係 |
その他 |
PixArt-alpha |
71.11 |
74.97 |
79.32 |
78.60 |
82.57 |
76.96 |
SDXL |
74.65 |
83.27 |
82.43 |
80.91 |
86.76 |
80.41 |
DALL-E 3 |
83.50 |
90.97 |
89.61 |
88.39 |
90.58 |
89.83 |
Flux.1-dev |
83.79 |
85.80 |
86.79 |
89.98 |
90.04 |
89.90 |
SD3-Medium |
84.08 |
87.90 |
91.01 |
88.83 |
80.70 |
88.68 |
Janus-Pro-7B |
84.19 |
86.90 |
88.90 |
89.40 |
89.32 |
89.48 |
CogView4-6B |
85.13 |
83.85 |
90.35 |
91.17 |
91.14 |
87.29 |
HiDream-I1 |
85.89 |
76.44 |
90.22 |
89.48 |
93.74 |
91.83 |
GenEval
モデル |
全体 |
単一オブジェクト |
二つのオブジェクト |
カウント |
色 |
位置 |
色属性 |
SDXL |
0.55 |
0.98 |
0.74 |
0.39 |
0.85 |
0.15 |
0.23 |
PixArt-alpha |
0.48 |
0.98 |
0.50 |
0.44 |
0.80 |
0.08 |
0.07 |
Flux.1-dev |
0.66 |
0.98 |
0.79 |
0.73 |
0.77 |
0.22 |
0.45 |
DALL-E 3 |
0.67 |
0.96 |
0.87 |
0.47 |
0.83 |
0.43 |
0.45 |
CogView4-6B |
0.73 |
0.99 |
0.86 |
0.66 |
0.79 |
0.48 |
0.58 |
SD3-Medium |
0.74 |
0.99 |
0.94 |
0.72 |
0.89 |
0.33 |
0.60 |
Janus-Pro-7B |
0.80 |
0.99 |
0.89 |
0.59 |
0.90 |
0.79 |
0.66 |
HiDream-I1 |
0.83 |
1.00 |
0.98 |
0.79 |
0.91 |
0.60 |
0.72 |
HPSv2.1ベンチマーク
モデル |
平均 |
アニメーション |
コンセプトアート |
絵画 |
写真 |
Stable Diffusion v2.0 |
26.38 |
27.09 |
26.02 |
25.68 |
26.73 |
Midjourney V6 |
30.29 |
32.02 |
30.29 |
29.74 |
29.10 |
SDXL |
30.64 |
32.84 |
31.36 |
30.86 |
27.48 |
Dall-E3 |
31.44 |
32.39 |
31.09 |
31.18 |
31.09 |
SD3 |
31.53 |
32.60 |
31.82 |
32.06 |
29.62 |
Midjourney V5 |
32.33 |
34.05 |
32.47 |
32.24 |
30.56 |
CogView4-6B |
32.31 |
33.23 |
32.60 |
32.89 |
30.52 |
Flux.1-dev |
32.47 |
33.87 |
32.27 |
32.62 |
31.11 |
stable cascade |
32.95 |
34.58 |
33.13 |
33.29 |
30.78 |
HiDream-I1 |
33.82 |
35.05 |
33.74 |
33.88 |
32.61 |
📄 ライセンス
このリポジトリのTransformerモデルはMITライセンスの下でライセンスされています。VAEは FLUX.1 [schnell]
から、テキストエンコーダは google/t5-v1_1-xxl
と meta-llama/Meta-Llama-3.1-8B-Instruct
から取得しています。これらのコンポーネントに指定されたライセンス条項に従ってください。このモデルで作成したすべてのコンテンツはあなたが所有します。生成したコンテンツを自由に使用できますが、このライセンス契約に準拠する必要があります。モデルの使用方法はあなた自身が責任を負います。違法なコンテンツ、有害な材料、他人を害する可能性のある個人情報、虚偽の情報、または脆弱なグループを標的としたコンテンツを作成しないでください。
謝辞
- VAEコンポーネントは
FLUX.1 [schnell]
から取得しており、Apache 2.0ライセンスの下で提供されています。
- テキストエンコーダは
google/t5-v1_1-xxl
(Apache 2.0ライセンス)と meta-llama/Meta-Llama-3.1-8B-Instruct
(Llama 3.1 Community License Agreement)から取得しています。