免费开源svdq-int4-flux.1-fill-dev模型 - 实现图像区域填充还省内存提速度

首页

Svdq Int4 Flux.1 Fill Dev

由 mit-han-lab 开发

FLUX.1-Fill-dev的INT4量化版本，能够根据文本描述填充现有图像中的区域，提供约4倍内存节省和2-3倍速度提升。

图像生成英语开源协议:其他 #INT4量化扩散 #图像修复填充 #低内存占用

下载量 62.61k

发布时间 : 2/4/2025

模型简介

这是一个基于FLUX.1-Fill-dev模型的INT4量化版本，专注于图像修复和生成任务，特别擅长根据文本提示填充图像中的指定区域。

模型特点

高效量化

采用INT4量化技术，提供约4倍内存节省和2-3倍速度提升

SVDQuant方法

通过激活值异常值迁移和SVD分解技术实现高质量低精度量化

Nunchaku引擎优化

通过内核融合技术减少数据移动开销，提高计算效率

高分辨率支持

支持像素数为65,536倍数的高分辨率图像处理

模型能力

图像修复

图像生成

文本到图像转换

图像到图像转换

使用案例

图像编辑

物体移除与替换

移除图像中不需要的物体并用新内容填充

生成自然无缝的填充效果

创意内容生成

根据文本提示在图像特定区域添加新元素

生成与上下文协调的新内容

设计辅助

快速原型设计

快速生成设计概念和原型

加速设计流程

🚀 svdq-int4-flux.1-fill-dev

svdq-int4-flux.1-fill-dev 是一个图像生成模型，它是 FLUX.1-Fill-dev 的 INT4 量化版本，可基于文本描述填充现有图像中的区域，能节省约 4 倍内存，且推理速度比原始 BF16 模型快 2 - 3 倍。

模型信息

属性	详情
开发团队	MIT、NVIDIA、CMU、普林斯顿大学、加州大学伯克利分校、上海交通大学和 Pika Labs
模型类型	INT W4A4 模型
模型大小	6.64GB
模型分辨率	像素数量需为 65,536 的倍数
许可证	Apache - 2.0

量化库: DeepCompressor 推理引擎: Nunchaku

[论文] [代码] [演示] [网站] [博客]

teaser

🚀 快速开始

量化方法 -- SVDQuant

intuition SVDQuant 概述。阶段 1：最初，激活 X 和权重 W 都包含离群值，这使得 4 位量化具有挑战性。阶段 2：我们将离群值从激活迁移到权重，从而得到更新后的激活和权重。虽然激活变得更容易量化，但权重现在变得更难。阶段 3：SVDQuant 进一步使用奇异值分解（SVD）将权重分解为低秩分量和残差。因此，低秩分支以 16 位精度运行，从而减轻了量化难度。

Nunchaku 引擎设计

engine (a) 天真地以秩 32 运行低秩分支会由于 Down Projection 中 16 位输入的额外读取和 Up Projection 中 16 位输出的额外写入而引入 57% 的延迟开销。Nunchaku 通过内核融合优化了此开销。(b) Down Projection 和 Quantize 内核使用相同的输入，而 Up Projection 和 4 - Bit Compute 内核共享相同的输出。为了减少数据移动开销，我们将前两个和后两个内核融合在一起。

📦 安装指南

请按照 mit - han - lab/nunchaku 中的说明设置环境。

💻 使用示例

基础用法

使用 Diffusers 库运行模型：

import torch
from diffusers import FluxFillPipeline
from diffusers.utils import load_image

from nunchaku.models.transformer_flux import NunchakuFluxTransformer2dModel

image = load_image("https://huggingface.co/mit-han-lab/svdq-int4-flux.1-fill-dev/resolve/main/example.png")
mask = load_image("https://huggingface.co/mit-han-lab/svdq-int4-flux.1-fill-dev/resolve/main/mask.png")

transformer = NunchakuFluxTransformer2dModel.from_pretrained("mit-han-lab/svdq-int4-flux.1-fill-dev")
pipe = FluxFillPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-Fill-dev", transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
image = pipe(
    prompt="A wooden basket of a cat.",
    image=image,
    mask_image=mask,
    height=1024,
    width=1024,
    guidance_scale=30,
    num_inference_steps=50,
    max_sequence_length=512,
).images[0]
image.save("flux.1-fill-dev.png")

Comfy UI

开发中，敬请期待！

🔧 技术细节

模型运行限制：该模型仅可在具有 sm_86（安培架构：RTX 3090、A6000）、sm_89（阿达架构：RTX 4090）和 sm_80（A100）架构的 NVIDIA GPU 上运行。更多详细信息请参阅此 issue。
细节差异：与 BF16 模型相比，在细节上可能会观察到一些细微差异。

📄 许可证

该模型使用 Apache - 2.0 许可证。

🔖 引用

如果您发现此模型对您的研究有用或相关，请引用：

@inproceedings{
  li2024svdquant,
  title={SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models},
  author={Li*, Muyang and Lin*, Yujun and Zhang*, Zhekai and Cai, Tianle and Li, Xiuyu and Guo, Junxian and Xie, Enze and Meng, Chenlin and Zhu, Jun-Yan and Han, Song},
  booktitle={The Thirteenth International Conference on Learning Representations},
  year={2025}
}