OmniGen-V1开源多模态图像生成模型 - 免插件预处理按需生成各类图像

首页

Omnigen V1

由 silveroxides 开发

OmniGen是一个统一的多模态图像生成模型，能够根据多样化指令生成各类图像，无需加载额外插件或进行繁琐预处理。

文本生成图像开源协议:MIT #多模态指令生成 #零插件图像编辑 #统一生成框架

下载量 2,252

发布时间 : 11/4/2024

模型简介

OmniGen致力于打造简洁灵活的图像生成范式，能够像GPT处理文本那样直接通过多模态指令生成理想图像。

模型特点

多模态指令生成

能够自动识别输入图像特征并与文本提示结合生成图像，无需额外插件或预处理

统一生成范式

支持多种图像生成任务（文生图、主体驱动生成、身份保持生成等）的单一模型解决方案

灵活扩展

可通过微调轻松扩展模型能力，只需准备对应数据即可构建任意图像生成任务

模型能力

文生图

主体驱动生成

身份保持生成

图像编辑

条件图像生成

使用案例

创意设计

角色设计

根据文字描述生成特定风格的角色形象

可生成高质量的角色图像

场景设计

根据文字描述生成特定场景的图像

可生成符合描述的多样化场景

商业应用

广告素材生成

快速生成符合产品特点的广告图像

可节省设计时间和成本

产品展示

根据产品描述生成展示图像

可生成吸引人的产品展示图

🚀 OmniGen：统一图像生成

OmniGen 是一个统一的图像生成模型，它能够根据多模态提示生成各种图像。该模型设计简洁、灵活且易于使用，为用户提供了便捷的图像生成体验。

🚀 快速开始

使用 OmniGen

通过 Github 安装（推荐）：

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

或者通过 pypi 安装：

pip install OmniGen

以下是一些使用示例：

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")

# 文本到图像
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # 保存输出的 PIL 图像

# 多模态到图像
# 在提示中，我们使用占位符来表示图像。图像占位符的格式应为 <img><|image_*|></img>
# 你可以在 input_images 中添加多个图像。请确保每个图像都有其占位符。例如，对于列表 input_images [img1_path, img2_path]，提示需要有两个占位符：<img><|image_1|></img>，<img><|image_2|></img>。
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    separate_cfg_infer=False,  # 如果出现内存不足的情况，你可以将 separate_cfg_infer 设置为 True
    guidance_scale=3, 
    img_guidance_scale=1.6
)
images[0].save("example_ti2i.png")  # 保存输出的 PIL 图像

有关推理参数的更多详细信息，请参考 docs/inference.md。有关更多图像生成示例，你可以参考 inference.ipynb 和 inference_demo.ipynb。

使用 Diffusers

即将推出。

Gradio 演示

我们在 Huggingface 上构建了一个在线演示。对于本地 Gradio 演示，你可以运行：

python app.py

✨ 主要特性

统一图像生成：OmniGen 是一个统一的图像生成模型，可根据多模态提示生成各种图像，无需额外的插件或操作。
简单灵活：设计简洁、灵活且易于使用，用户可以通过简单的步骤探索其更多功能。
多任务支持：能够执行多种任务，包括但不限于文本到图像生成、主题驱动生成、身份保留生成、图像编辑和图像条件生成。

📦 安装指南

通过 Github 安装（推荐）

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

通过 pypi 安装

pip install OmniGen

💻 使用示例

基础用法

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")

# 文本到图像
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # 保存输出的 PIL 图像

高级用法

# 多模态到图像
# 在提示中，我们使用占位符来表示图像。图像占位符的格式应为 <img><|image_*|></img>
# 你可以在 input_images 中添加多个图像。请确保每个图像都有其占位符。例如，对于列表 input_images [img1_path, img2_path]，提示需要有两个占位符：<img><|image_1|></img>，<img><|image_2|></img>。
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    separate_cfg_infer=False,  # 如果出现内存不足的情况，你可以将 separate_cfg_infer 设置为 True
    guidance_scale=3, 
    img_guidance_scale=1.6
)
images[0].save("example_ti2i.png")  # 保存输出的 PIL 图像

📚 详细文档

模型概述

OmniGen 是一个统一的图像生成模型，能够从多模态提示中生成广泛的图像。它旨在简单、灵活且易于使用。我们提供了推理代码，以便每个人都能探索 OmniGen 的更多功能。

模型能力

OmniGen 可以执行多种任务，包括但不限于文本到图像生成、主题驱动生成、身份保留生成、图像编辑和图像条件生成。它无需额外的插件或操作，可根据文本提示自动识别输入图像中的特征（例如所需对象、人体姿势、深度映射）。

模型微调

我们提供了一个训练脚本 train.py 来微调 OmniGen。有关更多详细信息（例如全量微调），请参考 docs/finetune.md。

🔧 技术细节

现有图像生成模型通常需要加载多个额外的网络模块（如 ControlNet、IP - Adapter、Reference - Net 等），并执行额外的预处理步骤（如人脸检测、姿势估计、裁剪等）才能生成令人满意的图像。而 OmniGen 致力于打造更简单灵活的未来图像生成范式，即通过任意多模态指令直接生成各种图像，无需额外的插件和操作，类似于 GPT 在语言生成中的工作方式。

📄 许可证

本仓库遵循 MIT 许可证。

引用

如果你觉得这个仓库有用，请考虑给它点个星 ⭐ 并引用：

@article{xiao2024omnigen,
  title={Omnigen: Unified image generation},
  author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
  journal={arXiv preprint arXiv:2409.11340},
  year={2024}
}

更多信息请参考我们的 Github 仓库：https://github.com/VectorSpaceLab/OmniGen