🚀 HiDream-I1 - 開源圖像生成基礎模型
HiDream-I1
是一款全新的開源圖像生成基礎模型,擁有 170 億參數,能在數秒內實現頂尖的圖像生成質量。如需瞭解更多特性並體驗我們產品的完整功能,請訪問 https://vivago.ai/。
✨ 主要特性
- ✨ 卓越的圖像質量 - 在多種風格(包括逼真照片、卡通、藝術風格等)下都能產生出色的結果。達到了最先進的 HPS v2.1 評分,符合人類偏好。
- 🎯 一流的提示遵循能力 - 在 GenEval 和 DPG 基準測試中取得了行業領先的分數,超越了所有其他開源模型。
- 🔓 開源 - 在 MIT 許可下發布,以促進科學進步並推動創新。
- 💼 商業友好 - 生成的圖像可自由用於個人項目、科學研究和商業應用。
🚀 快速開始
請確保你已經安裝了 Flash Attention。手動安裝時,我們建議使用 CUDA 版本 12.4。
pip install -r requirements.txt
克隆 GitHub 倉庫:
git clone https://github.com/HiDream-ai/HiDream-I1
然後你可以運行推理腳本來生成圖像:
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
⚠️ 重要提示
推理腳本將自動下載 meta-llama/Meta-Llama-3.1-8B-Instruct
模型文件。如果你遇到網絡問題,可以提前下載這些文件並將它們放在適當的緩存目錄中,以避免推理期間下載失敗。
💻 使用示例
基礎用法
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
高級用法
python gradio_demo.py
📚 詳細文檔
評估指標
DPG-Bench
模型 |
總體得分 |
全局得分 |
實體得分 |
屬性得分 |
關係得分 |
其他得分 |
PixArt-alpha |
71.11 |
74.97 |
79.32 |
78.60 |
82.57 |
76.96 |
SDXL |
74.65 |
83.27 |
82.43 |
80.91 |
86.76 |
80.41 |
DALL-E 3 |
83.50 |
90.97 |
89.61 |
88.39 |
90.58 |
89.83 |
Flux.1-dev |
83.79 |
85.80 |
86.79 |
89.98 |
90.04 |
89.90 |
SD3-Medium |
84.08 |
87.90 |
91.01 |
88.83 |
80.70 |
88.68 |
Janus-Pro-7B |
84.19 |
86.90 |
88.90 |
89.40 |
89.32 |
89.48 |
CogView4-6B |
85.13 |
83.85 |
90.35 |
91.17 |
91.14 |
87.29 |
HiDream-I1 |
85.89 |
76.44 |
90.22 |
89.48 |
93.74 |
91.83 |
GenEval
模型 |
總體得分 |
單對象得分 |
雙對象得分 |
計數得分 |
顏色得分 |
位置得分 |
顏色屬性得分 |
SDXL |
0.55 |
0.98 |
0.74 |
0.39 |
0.85 |
0.15 |
0.23 |
PixArt-alpha |
0.48 |
0.98 |
0.50 |
0.44 |
0.80 |
0.08 |
0.07 |
Flux.1-dev |
0.66 |
0.98 |
0.79 |
0.73 |
0.77 |
0.22 |
0.45 |
DALL-E 3 |
0.67 |
0.96 |
0.87 |
0.47 |
0.83 |
0.43 |
0.45 |
CogView4-6B |
0.73 |
0.99 |
0.86 |
0.66 |
0.79 |
0.48 |
0.58 |
SD3-Medium |
0.74 |
0.99 |
0.94 |
0.72 |
0.89 |
0.33 |
0.60 |
Janus-Pro-7B |
0.80 |
0.99 |
0.89 |
0.59 |
0.90 |
0.79 |
0.66 |
HiDream-I1 |
0.83 |
1.00 |
0.98 |
0.79 |
0.91 |
0.60 |
0.72 |
HPSv2.1 基準測試
模型 |
平均得分 |
動畫得分 |
概念藝術得分 |
繪畫得分 |
照片得分 |
Stable Diffusion v2.0 |
26.38 |
27.09 |
26.02 |
25.68 |
26.73 |
Midjourney V6 |
30.29 |
32.02 |
30.29 |
29.74 |
29.10 |
SDXL |
30.64 |
32.84 |
31.36 |
30.86 |
27.48 |
Dall-E3 |
31.44 |
32.39 |
31.09 |
31.18 |
31.09 |
SD3 |
31.53 |
32.60 |
31.82 |
32.06 |
29.62 |
Midjourney V5 |
32.33 |
34.05 |
32.47 |
32.24 |
30.56 |
CogView4-6B |
32.31 |
33.23 |
32.60 |
32.89 |
30.52 |
Flux.1-dev |
32.47 |
33.87 |
32.27 |
32.62 |
31.11 |
stable cascade |
32.95 |
34.58 |
33.13 |
33.29 |
30.78 |
HiDream-I1 |
33.82 |
35.05 |
33.74 |
33.88 |
32.61 |
📄 許可證
本倉庫中的 Transformer 模型遵循 MIT 許可證。VAE 來自 FLUX.1 [schnell]
,文本編碼器來自 google/t5-v1_1-xxl
和 meta-llama/Meta-Llama-3.1-8B-Instruct
。請遵循這些組件指定的許可條款。你擁有使用此模型創建的所有內容。你可以自由使用生成的內容,但必須遵守本許可協議。你應對模型的使用負責。請勿創建非法內容、有害材料、可能傷害他人的個人信息、虛假信息或針對弱勢群體的內容。
致謝
- VAE 組件來自
FLUX.1 [schnell]
,遵循 Apache 2.0 許可證。
- 文本編碼器來自
google/t5-v1_1-xxl
(遵循 Apache 2.0 許可證)和 meta-llama/Meta-Llama-3.1-8B-Instruct
(遵循 Llama 3.1 社區許可協議)。