Sana_1600M_512px开源文本到图像框架 - 免费部署高效生成高分辨率图像

首页

Sana 1600M 512px

由 Efficient-Large-Model 开发

Sana是一个高效生成高分辨率图像的文本到图像框架，支持最高4096×4096分辨率图像生成，并能在笔记本电脑GPU上快速运行。

文本生成图像支持多种语言#高效高分辨率图像生成 #线性扩散变换器 #多尺度512px图像

下载量 1,804

发布时间 : 11/21/2024

模型简介

Sana是一个基于线性扩散变换器的文本生成图像模型，能够高效生成高分辨率、高质量且文本-图像对齐度强的图像。

模型特点

高分辨率图像生成

支持最高4096×4096分辨率的图像生成

高效推理

可在笔记本电脑GPU上快速运行

多尺度支持

支持基于512px的多尺度高度和宽度图像生成

文本-图像对齐

生成的图像与输入文本提示高度对齐

模型能力

文本生成图像

高分辨率图像合成

多尺度图像生成

使用案例

艺术创作

艺术作品生成

用于设计和艺术创作过程中的图像生成

生成高质量的艺术作品

教育工具

创意教育工具

作为教育或创意工具使用

帮助学生和创作者快速可视化概念

研究

生成模型研究

用于探索和理解生成模型的局限性和偏见

🚀 🐱 Sana模型卡片

Sana是一个文本到图像的框架，能够高效生成最高达4096 × 4096分辨率的图像。它可以以极快的速度合成高分辨率、高质量且文本 - 图像对齐效果好的图像，并且可部署在笔记本电脑的GPU上。

teaser_page1

✨ 主要特性

我们推出的Sana是一个文本到图像的框架，可高效生成最高达4096 × 4096分辨率的图像。Sana能够以极快的速度合成高分辨率、高质量且文本 - 图像对齐效果好的图像，并且可部署在笔记本电脑的GPU上。源代码可在https://github.com/NVlabs/Sana获取。

📚 详细文档

模型描述

属性	详情
开发者	NVIDIA, Sana
模型类型	基于线性扩散Transformer的文本到图像生成模型
模型大小	1648M参数
模型分辨率	该模型旨在生成基于512px的多尺度高宽图像
许可证	NSCL v2 - 自定义。管理条款：NVIDIA许可证。附加信息：Gemma - 2 - 2B - IT的[Gemma使用条款
模型说明	这是一个可根据文本提示生成和修改图像的模型。它是一个线性扩散Transformer，使用一个固定的预训练文本编码器(Gemma2 - 2B - IT)和一个32x空间压缩潜在特征编码器(DC - AE)
更多信息资源	查看我们的GitHub仓库和arXiv上的Sana报告

模型来源

出于研究目的，我们推荐使用我们的generative - models Github仓库(https://github.com/NVlabs/Sana)，它更适合训练和推理，并且集成了像Flow - DPM - Solver这样的最先进的扩散采样器。MIT Han - Lab提供免费的Sana推理。