Lumina-Next-SFT-diffusers開源文生圖模型 - 免費生成精美圖像，功能實用！

首頁

Lumina Next SFT Diffusers

由Alpha-VLLM開發

Lumina-Next-SFT是一款包含20億參數的Next-DiT模型，採用Gemma-2B作為文本編碼器，並通過高質量監督微調(SFT)進行增強的文生圖模型。

文本生成圖像開源協議:Apache-2.0 #文生圖擴散模型 #Gemma-2B文本編碼 #20億參數規模

下載量 8,442

發布時間 : 6/20/2024

模型概述

Lumina-Next-SFT是基於Next-DiT架構的文生圖擴散模型，使用Gemma-2B作為文本編碼器，能夠根據文本描述生成高質量圖像。

模型特點

高質量監督微調

通過高質量監督微調(SFT)增強模型性能，提升生成圖像的質量

高效架構

採用Next-DiT骨幹網絡，實現更快速度更低內存佔用的圖像生成

強大文本理解

使用Gemma-2B作為文本編碼器，提供優秀的文本理解能力

高分辨率支持

支持最高2K分辨率的圖像生成

模型能力

文本到圖像生成

高分辨率圖像生成

複雜場景理解

使用案例

創意設計

概念藝術創作

根據文字描述生成遊戲或電影的概念藝術圖

生成具有特定風格和細節的概念藝術作品

內容創作

社交媒體內容生成

為社交媒體帖子生成配圖

快速生成與文本內容匹配的視覺圖像

🚀 Lumina-Next-SFT

Lumina-Next-SFT 是一款包含 20 億參數的 Next-DiT 模型，它採用 Gemma-2B 作為文本編碼器，並通過高質量的監督微調（SFT）進行了優化。該模型以 Next-DiT 為骨幹網絡，文本編碼器為 Gemma 2B 模型，變分自編碼器（VAE）則使用了由 stabilityai 微調的 sdxl 版本。

✨ 主要特性

強大的生成能力：基於 Next-DiT 架構，能夠生成高質量的圖像。
優質的文本編碼：採用 Gemma-2B 作為文本編碼器，更精準地理解文本輸入。
精細的圖像生成：使用 stabilityai 微調的 sdxl-vae 進行圖像生成，提升圖像質量。

屬性	詳情
模型類型	Next-DiT
文本編碼器	Gemma-2B
變分自編碼器（VAE）	stabilityai/sdxl-vae

Lumina-T2X 論文

hero

📰 新聞動態

[2024-07-08] 🎉🎉🎉 Lumina-Next 現已在 diffusers 中得到支持！感謝 @yiyixuxu 和 @sayakpaul！
[2024-06-08] 🎉🎉🎉 我們發佈了 Lumina-Next-SFT 模型。
[2024-05-28] 我們更新了 Lumina-Next-T2I 模型，以支持 2K 分辨率的圖像生成。
[2024-05-16] 我們將 .pth 權重轉換為 .safetensors 權重。請拉取最新代碼，使用 demo.py 進行推理。
[2024-05-12] 我們發佈了 Lumina-T2I 的下一個版本，名為 Lumina-Next-T2I，用於更快、更低內存使用的圖像生成模型。

🎮 模型庫

我們的模型將很快發佈更多檢查點~

分辨率	Next-DiT 參數	文本編碼器	預測方式	下載鏈接
1024	20 億	Gemma-2B	整流流	hugging face

📦 安裝指南

1. 創建 conda 環境並安裝 PyTorch

⚠️ 重要提示

你可能需要根據你的驅動版本調整 CUDA 版本。

conda create -n Lumina_T2X -y
conda activate Lumina_T2X
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

2. 安裝依賴項

pip install diffusers huggingface_hub

3. 安裝 `flash-attn`

pip install flash-attn --no-build-isolation

💻 使用示例

基礎用法

1. 準備預訓練模型

⭐⭐（推薦）你可以使用 huggingface_cli 下載我們的模型：

huggingface-cli download --resume-download Alpha-VLLM/Lumina-Next-SFT-diffusers --local-dir /path/to/ckpt

2. 使用示例代碼運行

from diffusers import LuminaText2ImgPipeline
import torch

pipeline = LuminaText2ImgPipeline.from_pretrained("/path/to/ckpt/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

# 或者你可以直接使用代碼下載模型
# pipeline = LuminaText2ImgPipeline.from_pretrained("Alpha-VLLM/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

image = pipeline(prompt="Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. "
                        "Background shows an industrial revolution cityscape with smoky skies and tall, metal structures").images[0]