Sana_600M_1024px開源文本生成圖像框架 - 快速合成4096×4096高質量圖像

首頁

Sana 600M 1024px

由Efficient-Large-Model開發

Sana是一個高效的文本生成圖像框架，能夠生成分辨率高達4096×4096的圖像，具有快速合成高分辨率、高質量圖像的能力。

文本生成圖像支持多種語言#高分辨率圖像生成 #快速文本轉圖像 #4096px超清輸出

下載量 285

發布時間 : 11/30/2024

模型概述

Sana是一個基於線性擴散變換器的文本生成圖像生成模型，使用Gemma2-2B-IT作為文本編碼器和DC-AE作為潛在特徵編碼器，能夠高效生成高分辨率圖像。

模型特點

高分辨率圖像生成

能夠生成分辨率高達4096×4096的高質量圖像。

高效推理

在筆記本電腦GPU上也能高效部署和運行。

強大的文本-圖像對齊

生成的圖像與輸入文本具有高度一致性。

模型能力

文本生成圖像

高分辨率圖像合成

快速圖像生成

使用案例

藝術創作

藝術作品生成

用於生成藝術作品和設計過程中的創意輔助。

生成高質量的藝術圖像。

教育

教育工具

用於教育或創意工具中的圖像生成。

提供直觀的圖像輔助教學。

研究

生成模型研究

用於探索和理解生成模型的侷限性和偏見。

推動生成模型技術的發展。

🚀 薩納（Sana）模型卡

薩納（Sana）是一個文本到圖像的生成框架，能夠高效生成分辨率高達 4096 × 4096 的圖像。它可以以極快的速度合成高分辨率、高質量且文本 - 圖像對齊效果出色的圖像，並且可以部署在筆記本電腦的 GPU 上。

teaser_page1

✨ 主要特性

我們推出的 薩納（Sana） 是一個文本到圖像的生成框架，能夠高效生成分辨率高達 4096 × 4096 的圖像。薩納可以以極快的速度合成高分辨率、高質量且文本 - 圖像對齊效果出色的圖像，並且可以部署在筆記本電腦的 GPU 上。源代碼可在 https://github.com/NVlabs/Sana 獲取。

📚 詳細文檔

模型描述

屬性	詳情
開發者	NVIDIA, Sana
模型類型	基於線性擴散變壓器的文本到圖像生成模型
模型大小	16.48 億參數
模型分辨率	該模型旨在生成基於 1024px 的多尺度高寬圖像
許可證	NSCL v2 - 自定義。管理條款：NVIDIA 許可證。附加信息：[Gemma 使用條款
模型說明	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個線性擴散變壓器，使用一個固定的預訓練文本編碼器 ([Gemma2 - 2B - IT](https://huggingface.co/google/gemma - 2 - 2b - it)) 和一個 32x 空間壓縮潛在特徵編碼器 ([DC - AE](https://hanlab.mit.edu/projects/dc - ae))
更多信息資源	查看我們的 GitHub 倉庫和 arXiv 上的薩納報告

模型來源

出於研究目的，我們推薦我們的 generative - models Github 倉庫 (https://github.com/NVlabs/Sana)，它更適合訓練和推理，並且集成了最先進的擴散採樣器，如 Flow - DPM - Solver。[麻省理工學院韓實驗室](https://nv - sana.mit.edu/) 提供免費的薩納推理。