🚀 Sana
Sana是一個文本到圖像的框架,能夠高效生成高達4096×4096分辨率的圖像。它可以快速合成高分辨率、高質量且文本與圖像高度對齊的圖像,還能部署在筆記本電腦的GPU上。
🚀 快速開始
本項目的源代碼可在 GitHub 上獲取。
✨ 主要特性
- 能夠高效生成高達4096×4096分辨率的圖像。
- 可以快速合成高分辨率、高質量且文本與圖像高度對齊的圖像。
- 支持Emoji、中文和英文以及所有混合提示。
- 可部署在筆記本電腦的GPU上。
📦 安裝指南
暫未提供相關安裝步驟內容。
💻 使用示例
基礎用法
參考原始 GitHub指南 來使用Sana官方代碼倉庫中的 .pth
模型:
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/4096ms/Sana_1600M_img4096_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_4Kpx_BF16/checkpoints/Sana_1600M_4Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(
prompt=prompt,
height=4096,
width=4096,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana_4K.png', nrow=1, normalize=True, value_range=(-1, 1))
📚 詳細文檔
模型描述
模型來源
出於研究目的,我們推薦使用我們的 generative-models
GitHub倉庫,它更適合訓練和推理,並且集成了最先進的擴散採樣器,如Flow-DPM-Solver。MIT Han-Lab 提供免費的Sana推理。
使用方式
該模型僅用於研究目的,可能的研究領域和任務包括:
- 生成藝術作品並用於設計和其他藝術過程。
- 在教育或創意工具中的應用。
- 生成模型的研究。
- 安全部署有可能生成有害內容的模型。
- 探索和理解生成模型的侷限性和偏差。
適用範圍外的使用
該模型並非用於真實地呈現人物或事件,因此使用該模型生成此類內容超出了該模型的能力範圍。
🔧 技術細節
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染複雜的清晰文本。
- 一般來說,手指等可能無法正確生成。
- 模型的自動編碼部分存在損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型使用 NSCL v2-custom 許可證。管理條款為NVIDIA許可證。附加信息:Gemma使用條款 | Google AI for Developers 適用於Gemma-2-2B-IT,Gemma禁止使用政策 | Google AI for Developers。
4K示例
圖像 |
 |
 |
 |
 |
提示 |
一個心形的熱氣球。大峽谷 |
一個融化的蘋果 |
一位亞裔中年婦女,她的黑髮中夾雜著銀絲 ,她的形象破碎而分散,錯綜複雜地嵌入一片破碎的瓷器之中。瓷器上濺滿了油漆圖案,光澤和啞光的藍色、綠色、橙色和紅色和諧交融,以超現實的動靜並置捕捉到了她的舞蹈。她的膚色如瓷器般淺淡,為她的形象增添了一種近乎神秘的特質。 |
現代豪華當代豪華家居室內設計 ,風格模仿廢墟材料、光線追蹤、鬼屋和石頭,捕捉到了自然的精髓,灰色和青銅色,動態的戶外鏡頭。 |
⚠️ 重要提示
由於數據的限制,我們的模型在生成複雜場景、文本和人類手部方面的能力有限。
💡 使用建議
可以通過增加提示的複雜性和長度來提高模型的性能。以下是一些提示和示例。