Sana_1600M_1024px_MultiLing開源圖像生成框架 - 支持多語言，可生成4096×4096高分辨率圖像

首頁

Sana 1600M 1024px MultiLing

由Efficient-Large-Model開發

Sana是一個高效的文本生成圖像框架，能夠生成分辨率高達4096×4096的圖像，支持多語言輸入。

文本生成圖像支持多種語言#高分辨率圖像生成 #多語言提示支持 #快速推理

下載量 111

發布時間 : 11/29/2024

模型概述

Sana是一個基於線性擴散Transformer的文本生成圖像模型，能夠快速合成高分辨率、高質量且文本-圖像對齊良好的圖像，支持英文、中文及表情符號混合提示詞。

模型特點

高分辨率圖像生成

支持生成分辨率高達4096×4096的高質量圖像

多語言支持

支持英文、中文及表情符號混合提示詞

高效推理

可在筆記本電腦GPU上部署，實現快速圖像生成

文本-圖像對齊良好

生成的圖像與輸入文本提示高度匹配

模型能力

文本生成圖像

高分辨率圖像合成

多語言提示支持

快速推理

使用案例

創意藝術

藝術作品生成

用於生成藝術作品和創意設計

高質量的藝術圖像

設計輔助

在設計流程中快速生成視覺概念

加速設計過程

教育

教育工具開發

開發教育或創意工具

增強學習體驗

研究

生成模型研究

用於探索和理解生成模型的侷限性與偏差

推動模型技術進步

🚀 Sana

Sana是一個文本到圖像的生成框架，能夠高效生成高達4096×4096分辨率的圖像。它可以以極快的速度合成高分辨率、高質量且文本與圖像強對齊的圖像，還能部署在筆記本電腦的GPU上。

✨ 主要特性

能夠高效生成高達4096×4096分辨率的圖像。
可以以極快的速度合成高分辨率、高質量且文本與圖像強對齊的圖像。
支持在筆記本電腦的GPU上部署。
支持Emoji、中文和英文以及所有混合提示。

📚 詳細文檔

與基礎模型對比

模型	語言
Sana_1600M_1024px	英語
Sana_1600M_1024px_MultiLing	英語、中文、Emoji

模型	示例1	示例2	示例3	示例4
Sana_1600M_1024px
Sana_1600M_1024px_MultiLing
提示詞	🐯 穿著 👕 吹 🎷	貓 Wearing 🕶 flying on the 彩虹 with 🌹 in the ❄️	🦁 teaching 🐯 to catch 🦋	金色 🌅 下的長城, traditional Chinese style

模型描述

屬性	詳情
開發者	NVIDIA, Sana
模型類型	基於線性擴散Transformer的文本到圖像生成模型
模型大小	1648M參數
模型分辨率	該模型用於生成基於1024px的多尺度高寬圖像
許可證	NSCL v2-custom。管理條款：NVIDIA許可證。附加信息：Gemma-2-2B-IT的[Gemma使用條款
模型說明	這是一個可根據文本提示生成和修改圖像的模型。它是一個線性擴散Transformer，使用一個固定的預訓練文本編碼器(Gemma2-2B-IT)和一個32x空間壓縮潛在特徵編碼器(DC-AE)
特殊之處	該模型是從基礎模型Efficient-Large-Model/Sana_1600M_1024px微調而來，支持Emoji、中文和英文以及所有混合提示
更多信息資源	查看我們的GitHub倉庫和arXiv上的Sana報告