Sana_1600M_2Kpx_BF16开源文生图框架 - 快速生成高分辨率图像，可笔记本GPU部署

首页

Sana 1600M 2Kpx BF16

由 Efficient-Large-Model 开发

Sana是一个高效生成最高4096×4096分辨率图像的文生图框架，能以惊人速度合成高分辨率、高质量且图文对齐度强的图像，并可在笔记本GPU上部署。

图像生成支持多种语言#2K高清文生图 #多语言提示支持 #笔记本GPU部署

下载量 61

发布时间 : 12/20/2024

模型简介

Sana是一个基于2K分辨率的文生图模型，支持多语言输入，能够快速生成高质量的高分辨率图像。

模型特点

高分辨率图像生成

支持生成最高4096×4096分辨率的图像，保持高质量和图文对齐。

高效推理

优化后的模型可以在笔记本GPU上高效运行，实现快速图像生成。

多语言支持

支持英文和中文输入，适应不同语言用户的提示词需求。

2K分辨率优化

模型专门针对2K分辨率图像生成进行了优化，确保细节丰富和画面清晰。

模型能力

文本到图像生成

高分辨率图像合成

多语言提示词支持

使用案例

创意设计

时尚摄影

生成高质量时尚摄影图像，如模特肖像、服装展示等。

生成图像具有高细节和艺术风格，适合商业用途。

超现实艺术

生成超现实风格的图像，如火焰人形、云朵头部等创意概念。

图像具有独特的艺术效果和视觉冲击力。

自然场景

风景生成

生成自然风景图像，如雪山、日出等。

图像具有高分辨率和逼真的自然细节。

动物肖像

生成动物肖像，如猫咪、熊猫等。

图像生动可爱，适合宠物相关应用。

🚀 Sana文本到图像生成框架

Sana是一个文本到图像的生成框架，能够高效生成最高达4096 × 4096分辨率的图像。它可以在笔记本电脑的GPU上部署，以极快的速度合成高分辨率、高质量且文本与图像高度对齐的图像。

🚀 快速开始

我们推出了 Sana，这是一个文本到图像的框架，能够高效生成最高达4096 × 4096分辨率的图像。Sana可以以极快的速度合成高分辨率、高质量且文本与图像高度对齐的图像，并且可以部署在笔记本电脑的GPU上。

源代码可在 https://github.com/NVlabs/Sana 获取。

⚠️ 重要提示

⚠️ 重要提示

复杂场景创作能力有限：由于数据的限制，我们的模型在生成复杂场景、文本和人类手部方面的能力有限。

提升能力的方法：可以通过 增加提示词的复杂度和长度 来提高模型的性能。以下是一些 提示词和示例。

✨ 主要特性

能够高效生成最高达4096 × 4096分辨率的图像。
可以在笔记本电脑GPU上部署，快速合成高分辨率、高质量且文本与图像高度对齐的图像。
支持Emoji、中文和英文以及所有混合提示词。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

参考原始 GitHub指南来使用Sana官方代码库中的 .pth 模型：

import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)

sana = SanaPipeline("configs/sana_config/2048ms/Sana_1600M_img2048_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_2Kpx_BF16/checkpoints/Sana_1600M_2Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'

image = sana(
    prompt=prompt,
    height=2048,
    width=2048,
    guidance_scale=5.0,
    pag_guidance_scale=2.0,
    num_inference_steps=20,
    generator=generator,
)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))

📚 详细文档

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于线性扩散Transformer的文本到图像生成模型
模型大小	1648M参数
模型分辨率	该模型旨在生成基于2Kpx的多尺度高宽图像
许可证	NSCL v2-custom。管理条款：NVIDIA许可证。附加信息： [Gemma使用条款
模型描述	这是一个可以根据文本提示生成和修改图像的模型。它是一个线性扩散Transformer，使用一个固定的预训练文本编码器 (Gemma2-2B-IT) 和一个32x空间压缩潜在特征编码器 (DC-AE)
特殊说明	该模型是从基础模型 Efficient-Large-Model/Sana_1600M_1024px_BF16 微调而来，支持Emoji、中文和英文以及所有混合提示词
更多信息资源	查看我们的 GitHub仓库和 Sana在arXiv上的报告

模型来源

出于研究目的，我们推荐使用我们的 generative-models Github仓库 (https://github.com/NVlabs/Sana)，它更适合训练和推理，并且集成了大多数先进的扩散采样器，如Flow-DPM-Solver。 MIT Han-Lab 提供免费的Sana推理服务。