svdq-int4-flux.1-schnell开源模型 - 免费实现高效文本生成图像

首页

Svdq Int4 Flux.1 Schnell

由 mit-han-lab 开发

FLUX.1-schnell的INT4量化版本，基于SVDQuant技术实现高效文本生成图像

文本生成图像英语开源协议:Apache-2.0 #4比特量化扩散 #高效图像生成 #低显存需求

下载量 20.14k

发布时间 : 11/25/2024

模型简介

该模型是基于FLUX.1-schnell的4比特量化版本，采用SVDQuant技术优化，能够在保持视觉质量的同时显著提升推理速度和减少内存占用，适用于文本到图像的生成任务。

模型特点

高效量化技术

采用SVDQuant技术实现4比特权重和激活量化，显著减少内存占用和提升推理速度。

优化的推理引擎

通过Nunchaku引擎的内核融合优化，减少数据移动开销，提升计算效率。

高视觉保真度

在4比特量化下仍能保持高质量的图像生成效果，优于其他W4A4甚至W4A8基线。

模型能力

文本生成图像

高效推理

低内存占用

使用案例

创意设计

快速概念可视化

根据文本描述快速生成高质量图像，用于创意设计和概念验证。

在1024x1024分辨率下仅需4步推理即可生成清晰图像。

教育研究

量化技术研究

作为高效量化技术的典型案例，用于计算机视觉和机器学习研究。

相比BF16模型实现3.6倍内存压缩，推理速度提升8.7倍。

🚀 SVDQuant：4位权重和激活的后训练量化技术

SVDQuant是一种用于4位权重和激活的后训练量化技术，能很好地保持视觉保真度。在12B的FLUX.1 - dev上，与BF16模型相比，它实现了3.6倍的内存缩减。通过消除CPU卸载，在配备16GB的笔记本4090 GPU上，它比16位模型快8.7倍，比NF4 W4A16基线快3倍。在PixArt - ∑上，它展示了比其他W4A4甚至W4A8基线明显更优的视觉质量。

🚀 快速开始

环境设置

请按照[mit - han - lab/nunchaku](https://github.com/mit - han - lab/nunchaku)中的说明设置环境。

运行模型

Diffusers

import torch
from diffusers import FluxPipeline

from nunchaku.models.transformer_flux import NunchakuFluxTransformer2dModel

transformer = NunchakuFluxTransformer2dModel.from_pretrained("mit-han-lab/svdq-int4-flux.1-schnell")
pipeline = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-schnell", transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
image = pipeline(
    "A cat holding a sign that says hello world", width=1024, height=1024, num_inference_steps=4, guidance_scale=0
).images[0]
image.save("flux.1-schnell-int4.png")

Comfy UI

comfyui 请查看comfyui/README.md了解使用方法。

✨ 主要特性

高效量化：SVDQuant是一种后训练量化技术，用于4位权重和激活，能有效保持视觉保真度。
内存缩减：在12B的FLUX.1 - dev上，与BF16模型相比，实现了3.6倍的内存缩减。
速度提升：通过消除CPU卸载，在16GB的笔记本4090 GPU上，比16位模型快8.7倍，比NF4 W4A16基线快3倍。
视觉质量优：在PixArt - ∑上，展示了比其他W4A4甚至W4A8基线明显更优的视觉质量。

📚 详细文档

方法

量化方法 -- SVDQuant

intuition SVDQuant概述。阶段1：最初，激活 X 和权重 W 都包含离群值，使得4位量化具有挑战性。阶段2：我们将离群值从激活迁移到权重，得到更新后的激活和权重。虽然激活变得更容易量化，但权重现在变得更难。阶段3：SVDQuant进一步使用SVD将权重分解为低秩分量和残差。因此，低秩分支以16位精度运行，减轻了量化难度。

Nunchaku引擎设计

engine (a) 天真地以秩32运行低秩分支会由于Down Projection中额外读取16位输入和Up Projection中额外写入16位输出而引入57%的延迟开销。Nunchaku通过内核融合优化了此开销。 (b) Down Projection和Quantize内核使用相同的输入，而Up Projection和4 - Bit Compute内核共享相同的输出。为了减少数据移动开销，我们将前两个和后两个内核融合在一起。

模型描述

属性	详情
开发团队	MIT、NVIDIA、CMU、Princeton、UC Berkeley、SJTU和Pika Labs
模型类型	INT W4A4模型
模型大小	6.64GB
模型分辨率	像素数量需为65,536的倍数
许可证	Apache - 2.0

💡 使用建议

💡 使用建议

该模型仅可在具有sm_86（安培架构：RTX 3090、A6000）、sm_89（阿达架构：RTX 4090）和sm_80（A100）架构的NVIDIA GPU上运行。更多详细信息请参阅此[问题](https://github.com/mit - han - lab/nunchaku/issues/1)。

您可能会观察到与BF16模型在细节上有一些细微差异。

📄 许可证

本项目采用Apache - 2.0许可证。

引用

如果您发现此模型对您的研究有用或相关，请引用：

@inproceedings{
  li2024svdquant,
  title={SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models},
  author={Li*, Muyang and Lin*, Yujun and Zhang*, Zhekai and Cai, Tianle and Li, Xiuyu and Guo, Junxian and Xie, Enze and Meng, Chenlin and Zhu, Jun-Yan and Han, Song},
  booktitle={The Thirteenth International Conference on Learning Representations},
  year={2025}
}