🚀 Sana
Sana是一个文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。它可以快速合成高分辨率、高质量且文本与图像高度对齐的图像,还能部署在笔记本电脑的GPU上。
🚀 快速开始
本项目的源代码可在 GitHub 上获取。
✨ 主要特性
- 能够高效生成高达4096×4096分辨率的图像。
- 可以快速合成高分辨率、高质量且文本与图像高度对齐的图像。
- 支持Emoji、中文和英文以及所有混合提示。
- 可部署在笔记本电脑的GPU上。
📦 安装指南
暂未提供相关安装步骤内容。
💻 使用示例
基础用法
参考原始 GitHub指南 来使用Sana官方代码仓库中的 .pth
模型:
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/4096ms/Sana_1600M_img4096_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_4Kpx_BF16/checkpoints/Sana_1600M_4Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(
prompt=prompt,
height=4096,
width=4096,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana_4K.png', nrow=1, normalize=True, value_range=(-1, 1))
📚 详细文档
模型描述
模型来源
出于研究目的,我们推荐使用我们的 generative-models
GitHub仓库,它更适合训练和推理,并且集成了最先进的扩散采样器,如Flow-DPM-Solver。MIT Han-Lab 提供免费的Sana推理。
使用方式
该模型仅用于研究目的,可能的研究领域和任务包括:
- 生成艺术作品并用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 生成模型的研究。
- 安全部署有可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏差。
适用范围外的使用
该模型并非用于真实地呈现人物或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
🔧 技术细节
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染复杂的清晰文本。
- 一般来说,手指等可能无法正确生成。
- 模型的自动编码部分存在损失。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
📄 许可证
本模型使用 NSCL v2-custom 许可证。管理条款为NVIDIA许可证。附加信息:Gemma使用条款 | Google AI for Developers 适用于Gemma-2-2B-IT,Gemma禁止使用政策 | Google AI for Developers。
4K示例
图像 |
 |
 |
 |
 |
提示 |
一个心形的热气球。大峡谷 |
一个融化的苹果 |
一位亚裔中年妇女,她的黑发中夹杂着银丝 ,她的形象破碎而分散,错综复杂地嵌入一片破碎的瓷器之中。瓷器上溅满了油漆图案,光泽和哑光的蓝色、绿色、橙色和红色和谐交融,以超现实的动静并置捕捉到了她的舞蹈。她的肤色如瓷器般浅淡,为她的形象增添了一种近乎神秘的特质。 |
现代豪华当代豪华家居室内设计 ,风格模仿废墟材料、光线追踪、鬼屋和石头,捕捉到了自然的精髓,灰色和青铜色,动态的户外镜头。 |
⚠️ 重要提示
由于数据的限制,我们的模型在生成复杂场景、文本和人类手部方面的能力有限。
💡 使用建议
可以通过增加提示的复杂性和长度来提高模型的性能。以下是一些提示和示例。