開源Sana文生圖框架 - 在筆記本GPU快造4096×4096高分辨率高質量圖

首頁

Sana 1600M 1024px BF16

由Efficient-Large-Model開發

Sana是一個能高效生成最高4096×4096分辨率圖像的文生圖框架，可在筆記本電腦GPU上快速合成高分辨率、高質量且具有強圖文對齊性的圖像。

圖像生成支持多種語言#高效高分辨率圖像生成 #線性擴散Transformer架構 #筆記本電腦GPU可部署

下載量 1,129

發布時間 : 12/10/2024

模型概述

Sana是基於線性擴散Transformer的文生圖生成模型，專為生成基於1024像素的多尺度寬高圖像而開發，採用固定預訓練文本編碼器和32倍空間壓縮的潛在特徵編碼器。

模型特點

高分辨率圖像生成

支持最高4096×4096分辨率的圖像生成

高效推理

優化後的架構可在筆記本電腦GPU上高效運行

強圖文對齊

生成的圖像與輸入文本提示高度匹配

多尺度支持

專為基於1024像素的多尺度寬高圖像生成而設計

模型能力

文本到圖像生成

高分辨率圖像合成

多尺度圖像生成

使用案例

創意藝術

藝術作品生成

用於生成藝術作品和設計元素

高質量的藝術圖像

創意工具開發

作為教育或創意工具的核心組件

交互式創意應用

研究

生成模型研究

用於探索擴散模型和Transformer架構

新的模型架構和訓練方法

模型安全研究

研究具有潛在有害內容生成能力模型的安全部署

更安全的生成模型部署方案

🚀 🐱 Sana模型

Sana是一個文本到圖像的框架，能夠高效生成高達4096 × 4096分辨率的圖像。它可以以極快的速度合成高分辨率、高質量且文本與圖像高度對齊的圖像，並且可部署在筆記本電腦的GPU上。

🚀 快速開始

本部分暫未提供相關內容，若有需要可參考後續模型介紹部分。

✨ 主要特性

能夠高效生成高達4096 × 4096分辨率的圖像。
可快速合成高分辨率、高質量且文本與圖像高度對齊的圖像。
可部署在筆記本電腦的GPU上。

📚 詳細文檔

模型介紹

teaser_page1

這是一個可根據文本提示生成和修改圖像的模型。它是一個線性擴散Transformer，使用一個固定的預訓練文本編碼器（Gemma2 - 2B - IT）和一個32x空間壓縮潛在特徵編碼器（DC - AE）。

屬性	詳情
開發方	NVIDIA, Sana
模型類型	基於線性擴散Transformer的文本到圖像生成模型
模型大小	1648M參數
模型精度	torch.bfloat16 (BF16)
模型分辨率	該模型旨在生成基於1024px的多尺度高寬圖像
許可證	NSCL v2 - custom。管理條款：NVIDIA許可證。附加信息：[Gemma使用條款
模型描述	可根據文本提示生成和修改圖像
更多信息資源	查看我們的GitHub倉庫和arXiv上的Sana報告

模型來源

出於研究目的，我們推薦使用我們的generative - models Github倉庫（https://github.com/NVlabs/Sana），它更適合訓練和推理，並且集成了像Flow - DPM - Solver這樣的高級擴散採樣器。MIT Han - Lab提供免費的Sana推理。