Sana_1600M_512px開源文本到圖像框架 - 免費部署高效生成高分辨率圖像

首頁

Sana 1600M 512px

由Efficient-Large-Model開發

Sana是一個高效生成高分辨率圖像的文本到圖像框架，支持最高4096×4096分辨率圖像生成，並能在筆記本電腦GPU上快速運行。

文本生成圖像支持多種語言#高效高分辨率圖像生成 #線性擴散變換器 #多尺度512px圖像

下載量 1,804

發布時間 : 11/21/2024

模型概述

Sana是一個基於線性擴散變換器的文本生成圖像模型，能夠高效生成高分辨率、高質量且文本-圖像對齊度強的圖像。

模型特點

高分辨率圖像生成

支持最高4096×4096分辨率的圖像生成

高效推理

可在筆記本電腦GPU上快速運行

多尺度支持

支持基於512px的多尺度高度和寬度圖像生成

文本-圖像對齊

生成的圖像與輸入文本提示高度對齊

模型能力

文本生成圖像

高分辨率圖像合成

多尺度圖像生成

使用案例

藝術創作

藝術作品生成

用於設計和藝術創作過程中的圖像生成

生成高質量的藝術作品

教育工具

創意教育工具

作為教育或創意工具使用

幫助學生和創作者快速可視化概念

研究

生成模型研究

用於探索和理解生成模型的侷限性和偏見

🚀 🐱 Sana模型卡片

Sana是一個文本到圖像的框架，能夠高效生成最高達4096 × 4096分辨率的圖像。它可以以極快的速度合成高分辨率、高質量且文本 - 圖像對齊效果好的圖像，並且可部署在筆記本電腦的GPU上。

teaser_page1

✨ 主要特性

我們推出的Sana是一個文本到圖像的框架，可高效生成最高達4096 × 4096分辨率的圖像。Sana能夠以極快的速度合成高分辨率、高質量且文本 - 圖像對齊效果好的圖像，並且可部署在筆記本電腦的GPU上。源代碼可在https://github.com/NVlabs/Sana獲取。

📚 詳細文檔

模型描述

屬性	詳情
開發者	NVIDIA, Sana
模型類型	基於線性擴散Transformer的文本到圖像生成模型
模型大小	1648M參數
模型分辨率	該模型旨在生成基於512px的多尺度高寬圖像
許可證	NSCL v2 - 自定義。管理條款：NVIDIA許可證。附加信息：Gemma - 2 - 2B - IT的[Gemma使用條款
模型說明	這是一個可根據文本提示生成和修改圖像的模型。它是一個線性擴散Transformer，使用一個固定的預訓練文本編碼器(Gemma2 - 2B - IT)和一個32x空間壓縮潛在特徵編碼器(DC - AE)
更多信息資源	查看我們的GitHub倉庫和arXiv上的Sana報告

模型來源

出於研究目的，我們推薦使用我們的generative - models Github倉庫(https://github.com/NVlabs/Sana)，它更適合訓練和推理，並且集成了像Flow - DPM - Solver這樣的最先進的擴散採樣器。MIT Han - Lab提供免費的Sana推理。