Sana_600M_512px開源圖像生成框架 - 免費部署快速合成高分辨率圖像

Sana 600M 512px

由Efficient-Large-Model開發

Sana是一個高效文本生成圖像的框架，能夠生成分辨率高達4096×4096的圖像，具備快速合成高分辨率、高質量圖像的能力

下載量 2,853

發布時間 : 11/30/2024

模型概述

基於線性擴散變換器的文本生成圖像模型，使用Gemma2-2B-IT作為文本編碼器和DC-AE作為潛在特徵編碼器

高分辨率圖像生成

支持生成分辨率高達4096×4096的高質量圖像

高效推理

可在筆記本電腦GPU上高效運行，推理速度快

強大的文本-圖像對齊

生成的圖像與輸入文本提示高度匹配

多尺度支持

支持基於512px的多尺度高度和寬度圖像生成

文本生成圖像

高分辨率圖像合成

多語言支持

藝術創作

藝術作品生成

用於藝術創作和設計過程中的圖像生成

生成高質量藝術作品

教育工具

創意教育工具

用於教育或創意工具中的圖像生成

輔助教學和創意表達

研究

生成模型研究

用於探索和理解生成模型的侷限性和偏見

薩納（Sana）是一個文本到圖像的生成框架，能夠高效生成高達 4096 × 4096 分辨率的圖像。它可以以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像，並且可以部署在筆記本電腦的 GPU 上。

本模型主要用於研究目的。你可以通過以下資源開始使用：

teaser_page1

我們推出了 薩納（Sana），這是一個文本到圖像的生成框架，能夠高效生成高達 4096 × 4096 分辨率的圖像。薩納可以以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像，並且可以部署在筆記本電腦的 GPU 上。

源代碼可在 GitHub 上獲取。

屬性	詳情
開發方	NVIDIA, Sana
模型類型	基於線性擴散變換器的文本到圖像生成模型
模型大小	1648M 參數
模型分辨率	該模型旨在生成基於 512px 的多尺度高寬圖像。
許可證	NSCL v2-custom。管理條款：NVIDIA 許可證。附加信息：[Gemma 使用條款
模型說明	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個線性擴散變換器，使用一個固定的預訓練文本編碼器 (Gemma2-2B-IT) 和一個 32x 空間壓縮潛在特徵編碼器 (DC-AE)。
更多信息資源	查看我們的 GitHub 倉庫和 arXiv 上的薩納報告。