開源FLUX.1 - schnell - DF11模型：顯存佔用降30%，精準計算無壓力！

首頁

FLUX.1 Schnell DF11

由DFloat11開發

採用DFloat11無損壓縮格式的FLUX.1-schnell模型，顯存佔用減少30%的同時保持100%精度

圖像生成 #無損壓縮 #顯存優化 #GPU實時解壓

下載量 2,043

發布時間 : 5/7/2025

模型概述

基於DFloat11格式壓縮的文生圖模型，通過硬件感知算法實現無損壓縮，適合顯存受限環境部署

模型特點

無損壓縮

採用DFloat11格式實現70%體積壓縮，輸出結果與原始模型二進制一致

硬件加速

支持GPU端實時解壓，避免CPU解壓或主機-設備數據傳輸開銷

顯存優化

推理過程中權重以壓縮形態駐留顯存，可降低約30%的GPU顯存佔用

模型能力

文本到圖像生成

高質量圖像合成

快速推理(4步採樣)

使用案例

創意設計

概念藝術生成

根據文字描述快速生成未來主義場景概念圖

示例中生成包含飛行汽車和霓虹燈的城市景觀

內容創作

社交媒體內容

為社交媒體快速生成配圖

🚀 DFloat11壓縮模型：`black-forest-labs/FLUX.1-schnell`

這是使用我們自定義的 DFloat11 格式對 black-forest-labs/FLUX.1-schnell 進行 無損壓縮 的版本。該壓縮模型的輸出與原始BFloat16模型 逐位相同，同時將GPU內存消耗降低了約 30%。

✨ 主要特性

無損壓縮：壓縮過程完全無損，保證模型輸出與原始模型逐位相同。
高效的GPU處理：無需CPU解壓縮或主機 - 設備數據傳輸，所有操作都在GPU上完成。
節省內存：減少約30%的GPU內存消耗。
快速推理：比CPU卸載方法快得多，適用於內存受限的環境。

📦 安裝指南

安裝DFloat11的pip包（會自動安裝CUDA內核；需要支持CUDA的GPU並已安裝PyTorch）：

pip install dfloat11[cuda12]
# 或者如果你使用的是CUDA 11版本:
# pip install dfloat11[cuda11]

💻 使用示例

基礎用法

import torch
from diffusers import FluxPipeline
from dfloat11 import DFloat11Model

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload()

DFloat11Model.from_pretrained('DFloat11/FLUX.1-schnell-DF11', device='cpu', bfloat16_model=pipe.transformer)

prompt = "A futuristic cityscape at sunset, with flying cars, neon lights, and reflective water canals"
image = pipe(
    prompt,
    guidance_scale=0.0,
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

📚 詳細文檔

工作原理

DFloat11使用BFloat16指數位的 霍夫曼編碼 來壓縮模型權重，並結合 硬件感知的算法設計，實現直接在GPU上進行高效的即時解壓縮。在推理過程中，權重在GPU內存中保持壓縮狀態，並在 矩陣乘法之前進行解壓縮，使用後 立即丟棄 以最小化內存佔用。

關鍵優勢

無需CPU解壓縮或主機 - 設備數據傳輸：所有操作都完全在GPU上處理。
DFloat11比CPU卸載方法快得多：能夠在內存受限的環境中進行實際部署。
壓縮完全無損：保證模型的輸出與原始模型 逐位相同。

🔧 技術細節

屬性	詳情
模型類型	基於`black-forest-labs/FLUX.1-schnell`的無損壓縮版本
訓練數據	未提及
壓縮格式	DFloat11
壓縮方法	霍夫曼編碼結合硬件感知算法
內存節省	約30%的GPU內存消耗
輸出一致性	與原始BFloat16模型逐位相同