Sana_1600M_1024px_MultiLingオープンソース画像生成フレームワーク - 多言語に対応し、4096×4096の高解像度画像を生成可能

ホーム

Sana 1600M 1024px MultiLing

Efficient-Large-Modelによって開発

Sanaは高効率なテキストから画像を生成するフレームワークで、最大4096×4096の解像度の画像を生成可能、多言語入力に対応しています。

テキスト生成画像複数言語対応#高解像度画像生成 #多言語プロンプト対応 #高速推論

ダウンロード数 111

リリース時間 : 11/29/2024

モデル概要

Sanaは線形拡散Transformerベースのテキストから画像を生成するモデルで、高解像度・高品質かつテキストと画像の整合性が良い画像を高速に合成でき、英語・中国語・絵文字の混合プロンプトに対応しています。

モデル特徴

高解像度画像生成

最大4096×4096の高品質画像生成に対応

多言語対応

英語・中国語・絵文字の混合プロンプトに対応

効率的な推論

ノートPCのGPU上で展開可能、高速な画像生成を実現

テキスト-画像整合性

生成画像は入力テキストプロンプトと高度に一致

モデル能力

テキストから画像生成

高解像度画像合成

多言語プロンプト対応

高速推論

使用事例

クリエイティブアート

アート作品生成

アート作品やクリエイティブデザインの生成に使用

高品質なアート画像

デザイン支援

デザインプロセスで視覚的コンセプトを迅速に生成

デザイン工程の加速

教育

教育ツール開発

教育やクリエイティブツールの開発に使用

学習体験の向上

研究

生成モデル研究

生成モデルの限界とバイアスの探求・理解に使用

モデル技術の進歩を推進

🚀 Sana

Sanaは、最大4096 × 4096解像度の画像を効率的に生成できるテキストから画像への変換フレームワークです。このモデルは、高解像度で高品質の画像を強力なテキストと画像のアライメントで非常に高速に合成でき、ノートパソコンのGPUでもデプロイ可能です。

📚 ドキュメント

ベースモデルとの比較

モデル	言語
Sana_1600M_1024px	英語
Sana_1600M_1024px_MultiLing	英語、中国語、絵文字

モデル	サンプル1	サンプル2	サンプル3	サンプル4
Sana_1600M_1024px
Sana_1600M_1024px_MultiLing
プロンプト	🐯 穿着 👕 吹 🎷	猫 Wearing 🕶 flying on the 彩虹 with 🌹 in the ❄️	🦁 teaching 🐯 to catch 🦋	金色 🌅 下的长城, traditional Chinese style

モデルの説明

属性	详情
開発者	NVIDIA, Sana
モデルタイプ	線形拡散トランスフォーマーベースのテキストから画像への生成モデル
モデルサイズ	1648Mパラメータ
モデル解像度	このモデルは、多スケールの高さと幅で1024pxベースの画像を生成するように開発されています。
ライセンス	NSCL v2-custom。管理条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use
モデル説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。 1つの固定された事前学習済みテキストエンコーダー (Gemma2-2B-IT) と1つの32倍空間圧縮された潜在特徴エンコーダー (DC-AE) を使用する線形拡散トランスフォーマーです。
特徴	このモデルは、ベースモデル Efficient-Large-Model/Sana_1600M_1024px からファインチューニングされており、絵文字、中国語、英語、およびそれらの混合プロンプトをサポートしています。
詳細情報のリソース	私たちのGitHubリポジトリとarXiv上のSanaレポートをチェックしてください。

モデルのソース

研究目的では、generative-modelsのGithubリポジトリ (https://github.com/NVlabs/Sana) をお勧めします。これは、トレーニングと推論の両方に適しており、Flow-DPM-Solverのような最新の拡散サンプラーが統合されています。 MIT Han-Lab は無料のSana推論を提供しています。