Sana_1600M_2Kpx_BF16開源文生圖框架 - 快速生成高分辨率圖像，可筆記本GPU部署

首頁

Sana 1600M 2Kpx BF16

由Efficient-Large-Model開發

Sana是一個高效生成最高4096×4096分辨率圖像的文生圖框架，能以驚人速度合成高分辨率、高質量且圖文對齊度強的圖像，並可在筆記本GPU上部署。

圖像生成支持多種語言#2K高清文生圖 #多語言提示支持 #筆記本GPU部署

下載量 61

發布時間 : 12/20/2024

模型概述

Sana是一個基於2K分辨率的文生圖模型，支持多語言輸入，能夠快速生成高質量的高分辨率圖像。

模型特點

高分辨率圖像生成

支持生成最高4096×4096分辨率的圖像，保持高質量和圖文對齊。

高效推理

優化後的模型可以在筆記本GPU上高效運行，實現快速圖像生成。

多語言支持

支持英文和中文輸入，適應不同語言用戶的提示詞需求。

2K分辨率優化

模型專門針對2K分辨率圖像生成進行了優化，確保細節豐富和畫面清晰。

模型能力

文本到圖像生成

高分辨率圖像合成

多語言提示詞支持

使用案例

創意設計

時尚攝影

生成高質量時尚攝影圖像，如模特肖像、服裝展示等。

生成圖像具有高細節和藝術風格，適合商業用途。

超現實藝術

生成超現實風格的圖像，如火焰人形、雲朵頭部等創意概念。

圖像具有獨特的藝術效果和視覺衝擊力。

自然場景

風景生成

生成自然風景圖像，如雪山、日出等。

圖像具有高分辨率和逼真的自然細節。

動物肖像

生成動物肖像，如貓咪、熊貓等。

圖像生動可愛，適合寵物相關應用。

🚀 Sana文本到圖像生成框架

Sana是一個文本到圖像的生成框架，能夠高效生成最高達4096 × 4096分辨率的圖像。它可以在筆記本電腦的GPU上部署，以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像。

🚀 快速開始

我們推出了 Sana，這是一個文本到圖像的框架，能夠高效生成最高達4096 × 4096分辨率的圖像。Sana可以以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像，並且可以部署在筆記本電腦的GPU上。

源代碼可在 https://github.com/NVlabs/Sana 獲取。

⚠️ 重要提示

⚠️ 重要提示

複雜場景創作能力有限：由於數據的限制，我們的模型在生成複雜場景、文本和人類手部方面的能力有限。

提升能力的方法：可以通過 增加提示詞的複雜度和長度 來提高模型的性能。以下是一些 提示詞和示例。

✨ 主要特性

能夠高效生成最高達4096 × 4096分辨率的圖像。
可以在筆記本電腦GPU上部署，快速合成高分辨率、高質量且文本與圖像高度對齊的圖像。
支持Emoji、中文和英文以及所有混合提示詞。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

參考原始 GitHub指南來使用Sana官方代碼庫中的 .pth 模型：

import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)

sana = SanaPipeline("configs/sana_config/2048ms/Sana_1600M_img2048_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_2Kpx_BF16/checkpoints/Sana_1600M_2Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'

image = sana(
    prompt=prompt,
    height=2048,
    width=2048,
    guidance_scale=5.0,
    pag_guidance_scale=2.0,
    num_inference_steps=20,
    generator=generator,
)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))

📚 詳細文檔

模型描述

屬性	詳情
開發者	NVIDIA, Sana
模型類型	基於線性擴散Transformer的文本到圖像生成模型
模型大小	1648M參數
模型分辨率	該模型旨在生成基於2Kpx的多尺度高寬圖像
許可證	NSCL v2-custom。管理條款：NVIDIA許可證。附加信息： [Gemma使用條款
模型描述	這是一個可以根據文本提示生成和修改圖像的模型。它是一個線性擴散Transformer，使用一個固定的預訓練文本編碼器 (Gemma2-2B-IT) 和一個32x空間壓縮潛在特徵編碼器 (DC-AE)
特殊說明	該模型是從基礎模型 Efficient-Large-Model/Sana_1600M_1024px_BF16 微調而來，支持Emoji、中文和英文以及所有混合提示詞
更多信息資源	查看我們的 GitHub倉庫和 Sana在arXiv上的報告

模型來源

出於研究目的，我們推薦使用我們的 generative-models Github倉庫 (https://github.com/NVlabs/Sana)，它更適合訓練和推理，並且集成了大多數先進的擴散採樣器，如Flow-DPM-Solver。 MIT Han-Lab 提供免費的Sana推理服務。