FLUX.1-dev-qint8開源圖像生成模型 - 免費文本繪圖像，適用非商業場景

首頁

FLUX.1 Dev Qint8

由Disty0開發

FLUX.1-dev是一個文本生成圖像的擴散模型，已通過Optimum Quanto量化為INT8格式，適用於非商業用途。

文本生成圖像英語開源協議:其他 #文本生成圖像 #INT8量化 #高分辨率生成

下載量 2,617

發布時間 : 8/11/2024

模型概述

該模型基於擴散模型架構，能夠根據文本提示生成高質量圖像，量化後降低了硬件需求。

模型特點

INT8量化

使用Optimum Quanto技術量化，減少顯存佔用同時保持較好生成質量

高分辨率生成

支持1024×1024分辨率圖像生成

雙文本編碼器

結合T5文本編碼器和專用Transformer架構增強文本理解能力

模型能力

文本生成圖像

高分辨率圖像生成

基於提示詞的創意圖像生成

使用案例

創意設計

概念藝術創作

根據文字描述生成概念藝術圖像

快速可視化創意概念

內容創作輔助

為博客、文章等生成配圖

節省圖像製作時間

教育研究

AI教學演示

展示文本到圖像生成技術

直觀理解擴散模型工作原理

🚀 black-forest-labs/FLUX.1-dev量化模型

本項目是 black-forest-labs/FLUX.1-dev 模型使用 Optimum Quanto 量化為 INT8 的版本，可用於文本到圖像的生成任務，在圖像生成領域具有一定價值。

🚀 快速開始

安裝依賴

使用以下命令安裝所需的依賴庫：

pip install diffusers optimum-quanto

代碼示例

以下是加載量化模型並進行圖像生成的示例代碼：

import json
import torch
import diffusers
import transformers
from optimum.quanto import requantize
from safetensors.torch import load_file
from huggingface_hub import hf_hub_download


def load_quanto_transformer(repo_path):
    with open(hf_hub_download(repo_path, "transformer/quantization_map.json"), "r") as f:
        quantization_map = json.load(f)
    with torch.device("meta"):
        transformer = diffusers.FluxTransformer2DModel.from_config(hf_hub_download(repo_path, "transformer/config.json")).to(torch.bfloat16)
    state_dict = load_file(hf_hub_download(repo_path, "transformer/diffusion_pytorch_model.safetensors"))
    requantize(transformer, state_dict, quantization_map, device=torch.device("cuda"))
    return transformer


def load_quanto_text_encoder_2(repo_path):
    with open(hf_hub_download(repo_path, "text_encoder_2/quantization_map.json"), "r") as f:
        quantization_map = json.load(f)
    with open(hf_hub_download(repo_path, "text_encoder_2/config.json")) as f:
        t5_config = transformers.T5Config(**json.load(f))
    with torch.device("meta"):
        text_encoder_2 = transformers.T5EncoderModel(t5_config).to(torch.bfloat16)
    state_dict = load_file(hf_hub_download(repo_path, "text_encoder_2/model.safetensors"))
    requantize(text_encoder_2, state_dict, quantization_map, device=torch.device("cuda"))
    return text_encoder_2


pipe = diffusers.AutoPipelineForText2Image.from_pretrained("Disty0/FLUX.1-dev-qint8", transformer=None, text_encoder_2=None, torch_dtype=torch.bfloat16)
pipe.transformer = load_quanto_transformer("Disty0/FLUX.1-dev-qint8")
pipe.text_encoder_2 = load_quanto_text_encoder_2("Disty0/FLUX.1-dev-qint8")
pipe = pipe.to("cuda", dtype=torch.bfloat16)


prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")