🚀 Sana文本到圖像生成框架
Sana是一個文本到圖像的生成框架,能夠高效生成最高達4096 × 4096分辨率的圖像。它可以在筆記本電腦的GPU上部署,以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像。
🚀 快速開始
我們推出了 Sana,這是一個文本到圖像的框架,能夠高效生成最高達4096 × 4096分辨率的圖像。Sana可以以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像,並且可以部署在筆記本電腦的GPU上。
源代碼可在 https://github.com/NVlabs/Sana 獲取。
⚠️ 重要提示
⚠️ 重要提示
- 複雜場景創作能力有限:由於數據的限制,我們的模型在生成複雜場景、文本和人類手部方面的能力 有限。
- 提升能力的方法:可以通過 增加提示詞的複雜度和長度 來提高模型的性能。以下是一些 提示詞和示例。
✨ 主要特性
- 能夠高效生成最高達4096 × 4096分辨率的圖像。
- 可以在筆記本電腦GPU上部署,快速合成高分辨率、高質量且文本與圖像高度對齊的圖像。
- 支持Emoji、中文和英文以及所有混合提示詞。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
參考原始 GitHub指南 來使用Sana官方代碼庫中的 .pth
模型:
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/2048ms/Sana_1600M_img2048_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_2Kpx_BF16/checkpoints/Sana_1600M_2Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(
prompt=prompt,
height=2048,
width=2048,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))
📚 詳細文檔
模型描述
模型來源
出於研究目的,我們推薦使用我們的 generative-models
Github倉庫 (https://github.com/NVlabs/Sana),它更適合訓練和推理,並且集成了大多數先進的擴散採樣器,如Flow-DPM-Solver。
MIT Han-Lab 提供免費的Sana推理服務。
- 倉庫地址:https://github.com/NVlabs/Sana
使用場景
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 生成藝術作品並用於設計和其他藝術過程。
- 在教育或創意工具中的應用。
- 生成模型的研究。
- 對有可能生成有害內容的模型進行安全部署。
- 探索和理解生成模型的侷限性和偏差。
以下是不適用的使用場景。
超出適用範圍的使用
該模型並非用於生成真實或準確反映人物或事件的內容,因此使用該模型生成此類內容超出了其能力範圍。
🔧 技術細節
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染複雜且清晰可讀的文本。
- 一般來說,手指等細節可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型使用 NSCL v2-custom 許可證。管理條款為NVIDIA許可證。附加信息請參考 Gemma使用條款 | Google AI for Developers (適用於Gemma-2-2B-IT)以及 Gemma禁止使用政策 | Google AI for Developers。