开源Sana文生图框架 - 在笔记本GPU快造4096×4096高分辨率高质量图

首页

Sana 1600M 1024px BF16

由 Efficient-Large-Model 开发

Sana是一个能高效生成最高4096×4096分辨率图像的文生图框架，可在笔记本电脑GPU上快速合成高分辨率、高质量且具有强图文对齐性的图像。

图像生成支持多种语言#高效高分辨率图像生成 #线性扩散Transformer架构 #笔记本电脑GPU可部署

下载量 1,129

发布时间 : 12/10/2024

模型简介

Sana是基于线性扩散Transformer的文生图生成模型，专为生成基于1024像素的多尺度宽高图像而开发，采用固定预训练文本编码器和32倍空间压缩的潜在特征编码器。

模型特点

高分辨率图像生成

支持最高4096×4096分辨率的图像生成

高效推理

优化后的架构可在笔记本电脑GPU上高效运行

强图文对齐

生成的图像与输入文本提示高度匹配

多尺度支持

专为基于1024像素的多尺度宽高图像生成而设计

模型能力

文本到图像生成

高分辨率图像合成

多尺度图像生成

使用案例

创意艺术

艺术作品生成

用于生成艺术作品和设计元素

高质量的艺术图像

创意工具开发

作为教育或创意工具的核心组件

交互式创意应用

研究

生成模型研究

用于探索扩散模型和Transformer架构

新的模型架构和训练方法

模型安全研究

研究具有潜在有害内容生成能力模型的安全部署

更安全的生成模型部署方案

🚀 🐱 Sana模型

Sana是一个文本到图像的框架，能够高效生成高达4096 × 4096分辨率的图像。它可以以极快的速度合成高分辨率、高质量且文本与图像高度对齐的图像，并且可部署在笔记本电脑的GPU上。

🚀 快速开始

本部分暂未提供相关内容，若有需要可参考后续模型介绍部分。

✨ 主要特性

能够高效生成高达4096 × 4096分辨率的图像。
可快速合成高分辨率、高质量且文本与图像高度对齐的图像。
可部署在笔记本电脑的GPU上。

📚 详细文档

模型介绍

teaser_page1

这是一个可根据文本提示生成和修改图像的模型。它是一个线性扩散Transformer，使用一个固定的预训练文本编码器（Gemma2 - 2B - IT）和一个32x空间压缩潜在特征编码器（DC - AE）。

属性	详情
开发方	NVIDIA, Sana
模型类型	基于线性扩散Transformer的文本到图像生成模型
模型大小	1648M参数
模型精度	torch.bfloat16 (BF16)
模型分辨率	该模型旨在生成基于1024px的多尺度高宽图像
许可证	NSCL v2 - custom。管理条款：NVIDIA许可证。附加信息：[Gemma使用条款
模型描述	可根据文本提示生成和修改图像
更多信息资源	查看我们的GitHub仓库和arXiv上的Sana报告

模型来源

出于研究目的，我们推荐使用我们的generative - models Github仓库（https://github.com/NVlabs/Sana），它更适合训练和推理，并且集成了像Flow - DPM - Solver这样的高级扩散采样器。MIT Han - Lab提供免费的Sana推理。