無料オープンソースのsvdq - int4 - flux.1 - fill - devモデル - 画像領域の塗りつぶしを実現し、メモリを節約して速度を向上させます

ホーム

Svdq Int4 Flux.1 Fill Dev

mit-han-labによって開発

FLUX.1-Fill-devのINT4量子化バージョンで、テキスト記述に基づき既存画像の領域を埋めることができ、約4倍のメモリ節約と2-3倍の速度向上を提供します。

画像生成英語オープンソースライセンス:その他 #INT4量子化拡散 #画像修復・インペイント #低メモリ使用量

ダウンロード数 62.61k

リリース時間 : 2/4/2025

モデル概要

これはFLUX.1-Fill-devモデルを基にしたINT4量子化バージョンで、画像修復と生成タスクに特化しており、特にテキストプロンプトに基づいて画像の指定領域を埋めることに優れています。

モデル特徴

効率的な量子化

INT4量子化技術を採用し、約4倍のメモリ節約と2-3倍の速度向上を実現

SVDQuant手法

活性化値の外れ値移行とSVD分解技術により、高品質な低精度量子化を実現

Nunchakuエンジン最適化

カーネル融合技術によりデータ移動のオーバーヘッドを削減し、計算効率を向上

高解像度サポート

65,536の倍数ピクセル数の高解像度画像処理をサポート

モデル能力

画像修復

画像生成

テキストから画像への変換

画像から画像への変換

使用事例

画像編集

オブジェクト削除と置換

画像内の不要なオブジェクトを削除し、新しい内容で埋める

自然でシームレスな埋め込み効果を生成

クリエイティブコンテンツ生成

テキストプロンプトに基づき画像の特定領域に新要素を追加

コンテキストに調和した新コンテンツを生成

デザイン支援

迅速なプロトタイプ設計

デザインコンセプトやプロトタイプを迅速に生成

デザインプロセスを加速

🚀 svdq-int4-flux.1-fill-dev

svdq-int4-flux.1-fill-devは、テキスト記述に基づいて既存の画像内の領域を埋めることができるFLUX.1-Fill-devのINT4量子化バージョンです。元のBF16モデルよりも約4倍のメモリ節約が可能で、2 - 3倍高速に動作します。

量子化ライブラリ: DeepCompressor 推論エンジン: Nunchaku

[論文] [コード] [デモ] [ウェブサイト] [ブログ]

teaser

🚀 クイックスタート

svdq-int4-flux.1-fill-devは、テキスト記述に基づいて既存の画像内の領域を埋めることができるモデルです。元のBF16モデルよりも約4倍のメモリ節約が可能で、2 - 3倍高速に動作します。

✨ 主な機能

テキスト記述に基づいて画像内の領域を埋めることができます。
元のBF16モデルよりも約4倍のメモリ節約が可能です。
元のBF16モデルよりも2 - 3倍高速に動作します。

🔧 技術詳細

量子化手法 -- SVDQuant

intuition SVDQuantの概要。ステージ1: もともと、活性化関数Xと重みWの両方に外れ値が含まれており、4ビット量子化が困難です。ステージ2: 外れ値を活性化関数から重みに移動させ、更新された活性化関数と重みを得ます。活性化関数は量子化しやすくなりますが、重みは量子化が難しくなります。ステージ3: SVDQuantは、SVDを使用して重みを低ランク成分と残差に分解します。これにより、低ランクブランチが16ビット精度で動作することで、量子化の難易度が軽減されます。

Nunchakuエンジン設計

engine (a) ランク32の低ランクブランチを単純に実行すると、Down Projectionでの16ビット入力の追加読み取りとUp Projectionでの16ビット出力の追加書き込みにより、57%のレイテンシオーバーヘッドが発生します。Nunchakuは、カーネル融合によってこのオーバーヘッドを最適化します。 (b) Down ProjectionとQuantizeカーネルは同じ入力を使用し、Up Projectionと4-Bit Computeカーネルは同じ出力を共有します。データ移動のオーバーヘッドを削減するために、最初の2つと後の2つのカーネルを融合します。

📚 ドキュメント

モデルの説明

属性	詳情
開発元	MIT、NVIDIA、CMU、Princeton、UC Berkeley、SJTU、Pika Labs
モデルタイプ	INT W4A4モデル
モデルサイズ	6.64GB
モデル解像度	ピクセル数は65,536の倍数である必要があります。
ライセンス	Apache-2.0

💻 使用例

基本的な使用法

import torch
from diffusers import FluxFillPipeline
from diffusers.utils import load_image

from nunchaku.models.transformer_flux import NunchakuFluxTransformer2dModel

image = load_image("https://huggingface.co/mit-han-lab/svdq-int4-flux.1-fill-dev/resolve/main/example.png")
mask = load_image("https://huggingface.co/mit-han-lab/svdq-int4-flux.1-fill-dev/resolve/main/mask.png")

transformer = NunchakuFluxTransformer2dModel.from_pretrained("mit-han-lab/svdq-int4-flux.1-fill-dev")
pipe = FluxFillPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-Fill-dev", transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
image = pipe(
    prompt="A wooden basket of a cat.",
    image=image,
    mask_image=mask,
    height=1024,
    width=1024,
    guidance_scale=30,
    num_inference_steps=50,
    max_sequence_length=512,
).images[0]
image.save("flux.1-fill-dev.png")

Comfy UI

開発中です。お楽しみに！

⚠️ 制限事項

このモデルは、アーキテクチャがsm_86 (Ampere: RTX 3090、A6000)、sm_89 (Ada: RTX 4090)、およびsm_80 (A100)のNVIDIA GPUでのみ実行可能です。詳細はこのissueを参照してください。
BF16モデルと細部で若干の違いが見られる場合があります。

引用

このモデルが有用であるか、あなたの研究に関連している場合は、以下のように引用してください。

@inproceedings{
  li2024svdquant,
  title={SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models},
  author={Li*, Muyang and Lin*, Yujun and Zhang*, Zhekai and Cai, Tianle and Li, Xiuyu and Guo, Junxian and Xie, Enze and Meng, Chenlin and Zhu, Jun-Yan and Han, Song},
  booktitle={The Thirteenth International Conference on Learning Representations},
  year={2025}
}