Sana_600M_512px开源图像生成框架 - 免费部署快速合成高分辨率图像

Sana 600M 512px

由 Efficient-Large-Model 开发

Sana是一个高效文本生成图像的框架，能够生成分辨率高达4096×4096的图像，具备快速合成高分辨率、高质量图像的能力

下载量 2,853

发布时间 : 11/30/2024

模型简介

基于线性扩散变换器的文本生成图像模型，使用Gemma2-2B-IT作为文本编码器和DC-AE作为潜在特征编码器

高分辨率图像生成

支持生成分辨率高达4096×4096的高质量图像

高效推理

可在笔记本电脑GPU上高效运行，推理速度快

强大的文本-图像对齐

生成的图像与输入文本提示高度匹配

多尺度支持

支持基于512px的多尺度高度和宽度图像生成

文本生成图像

高分辨率图像合成

多语言支持

艺术创作

艺术作品生成

用于艺术创作和设计过程中的图像生成

生成高质量艺术作品

教育工具

创意教育工具

用于教育或创意工具中的图像生成

辅助教学和创意表达

研究

生成模型研究

用于探索和理解生成模型的局限性和偏见

萨纳（Sana）是一个文本到图像的生成框架，能够高效生成高达 4096 × 4096 分辨率的图像。它可以以极快的速度合成高分辨率、高质量且文本与图像高度对齐的图像，并且可以部署在笔记本电脑的 GPU 上。

本模型主要用于研究目的。你可以通过以下资源开始使用：

teaser_page1

我们推出了 萨纳（Sana），这是一个文本到图像的生成框架，能够高效生成高达 4096 × 4096 分辨率的图像。萨纳可以以极快的速度合成高分辨率、高质量且文本与图像高度对齐的图像，并且可以部署在笔记本电脑的 GPU 上。

源代码可在 GitHub 上获取。

属性	详情
开发方	NVIDIA, Sana
模型类型	基于线性扩散变换器的文本到图像生成模型
模型大小	1648M 参数
模型分辨率	该模型旨在生成基于 512px 的多尺度高宽图像。
许可证	NSCL v2-custom。管理条款：NVIDIA 许可证。附加信息：[Gemma 使用条款
模型说明	这是一个可用于根据文本提示生成和修改图像的模型。它是一个线性扩散变换器，使用一个固定的预训练文本编码器 (Gemma2-2B-IT) 和一个 32x 空间压缩潜在特征编码器 (DC-AE)。
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的萨纳报告。