🚀 HiDream-I1 - 开源图像生成基础模型
HiDream-I1
是一款全新的开源图像生成基础模型,拥有 170 亿参数,能在数秒内实现顶尖的图像生成质量。如需了解更多特性并体验我们产品的完整功能,请访问 https://vivago.ai/。
✨ 主要特性
- ✨ 卓越的图像质量 - 在多种风格(包括逼真照片、卡通、艺术风格等)下都能产生出色的结果。达到了最先进的 HPS v2.1 评分,符合人类偏好。
- 🎯 一流的提示遵循能力 - 在 GenEval 和 DPG 基准测试中取得了行业领先的分数,超越了所有其他开源模型。
- 🔓 开源 - 在 MIT 许可下发布,以促进科学进步并推动创新。
- 💼 商业友好 - 生成的图像可自由用于个人项目、科学研究和商业应用。
🚀 快速开始
请确保你已经安装了 Flash Attention。手动安装时,我们建议使用 CUDA 版本 12.4。
pip install -r requirements.txt
克隆 GitHub 仓库:
git clone https://github.com/HiDream-ai/HiDream-I1
然后你可以运行推理脚本来生成图像:
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
⚠️ 重要提示
推理脚本将自动下载 meta-llama/Meta-Llama-3.1-8B-Instruct
模型文件。如果你遇到网络问题,可以提前下载这些文件并将它们放在适当的缓存目录中,以避免推理期间下载失败。
💻 使用示例
基础用法
python ./inference.py --model_type full
python ./inference.py --model_type dev
python ./inference.py --model_type fast
高级用法
python gradio_demo.py
📚 详细文档
评估指标
DPG-Bench
模型 |
总体得分 |
全局得分 |
实体得分 |
属性得分 |
关系得分 |
其他得分 |
PixArt-alpha |
71.11 |
74.97 |
79.32 |
78.60 |
82.57 |
76.96 |
SDXL |
74.65 |
83.27 |
82.43 |
80.91 |
86.76 |
80.41 |
DALL-E 3 |
83.50 |
90.97 |
89.61 |
88.39 |
90.58 |
89.83 |
Flux.1-dev |
83.79 |
85.80 |
86.79 |
89.98 |
90.04 |
89.90 |
SD3-Medium |
84.08 |
87.90 |
91.01 |
88.83 |
80.70 |
88.68 |
Janus-Pro-7B |
84.19 |
86.90 |
88.90 |
89.40 |
89.32 |
89.48 |
CogView4-6B |
85.13 |
83.85 |
90.35 |
91.17 |
91.14 |
87.29 |
HiDream-I1 |
85.89 |
76.44 |
90.22 |
89.48 |
93.74 |
91.83 |
GenEval
模型 |
总体得分 |
单对象得分 |
双对象得分 |
计数得分 |
颜色得分 |
位置得分 |
颜色属性得分 |
SDXL |
0.55 |
0.98 |
0.74 |
0.39 |
0.85 |
0.15 |
0.23 |
PixArt-alpha |
0.48 |
0.98 |
0.50 |
0.44 |
0.80 |
0.08 |
0.07 |
Flux.1-dev |
0.66 |
0.98 |
0.79 |
0.73 |
0.77 |
0.22 |
0.45 |
DALL-E 3 |
0.67 |
0.96 |
0.87 |
0.47 |
0.83 |
0.43 |
0.45 |
CogView4-6B |
0.73 |
0.99 |
0.86 |
0.66 |
0.79 |
0.48 |
0.58 |
SD3-Medium |
0.74 |
0.99 |
0.94 |
0.72 |
0.89 |
0.33 |
0.60 |
Janus-Pro-7B |
0.80 |
0.99 |
0.89 |
0.59 |
0.90 |
0.79 |
0.66 |
HiDream-I1 |
0.83 |
1.00 |
0.98 |
0.79 |
0.91 |
0.60 |
0.72 |
HPSv2.1 基准测试
模型 |
平均得分 |
动画得分 |
概念艺术得分 |
绘画得分 |
照片得分 |
Stable Diffusion v2.0 |
26.38 |
27.09 |
26.02 |
25.68 |
26.73 |
Midjourney V6 |
30.29 |
32.02 |
30.29 |
29.74 |
29.10 |
SDXL |
30.64 |
32.84 |
31.36 |
30.86 |
27.48 |
Dall-E3 |
31.44 |
32.39 |
31.09 |
31.18 |
31.09 |
SD3 |
31.53 |
32.60 |
31.82 |
32.06 |
29.62 |
Midjourney V5 |
32.33 |
34.05 |
32.47 |
32.24 |
30.56 |
CogView4-6B |
32.31 |
33.23 |
32.60 |
32.89 |
30.52 |
Flux.1-dev |
32.47 |
33.87 |
32.27 |
32.62 |
31.11 |
stable cascade |
32.95 |
34.58 |
33.13 |
33.29 |
30.78 |
HiDream-I1 |
33.82 |
35.05 |
33.74 |
33.88 |
32.61 |
📄 许可证
本仓库中的 Transformer 模型遵循 MIT 许可证。VAE 来自 FLUX.1 [schnell]
,文本编码器来自 google/t5-v1_1-xxl
和 meta-llama/Meta-Llama-3.1-8B-Instruct
。请遵循这些组件指定的许可条款。你拥有使用此模型创建的所有内容。你可以自由使用生成的内容,但必须遵守本许可协议。你应对模型的使用负责。请勿创建非法内容、有害材料、可能伤害他人的个人信息、虚假信息或针对弱势群体的内容。
致谢
- VAE 组件来自
FLUX.1 [schnell]
,遵循 Apache 2.0 许可证。
- 文本编码器来自
google/t5-v1_1-xxl
(遵循 Apache 2.0 许可证)和 meta-llama/Meta-Llama-3.1-8B-Instruct
(遵循 Llama 3.1 社区许可协议)。