Sana_1600M_512pxオープンソーステキストから画像へのフレームワーク - 無料でデプロイして高解像度画像を効率的に生成

ホーム

Sana 1600M 512px

Efficient-Large-Modelによって開発

Sanaは高解像度画像を効率的に生成するテキストから画像へのフレームワークで、最大4096×4096解像度の画像生成をサポートし、ノートPCのGPU上で高速に動作します。

テキスト生成画像複数言語対応#高解像度画像生成の効率化 #線形拡散トランスフォーマー #マルチスケール512px画像

ダウンロード数 1,804

リリース時間 : 11/21/2024

モデル概要

Sanaは線形拡散トランスフォーマーに基づくテキストから画像を生成するモデルで、高解像度で高品質、かつテキストと画像の連携が強い画像を効率的に生成できます。

モデル特徴

高解像度画像生成

最大4096×4096解像度の画像生成をサポート

効率的な推論

ノートPCのGPU上で高速に動作可能

マルチスケールサポート

512pxベースのマルチスケール高さ・幅の画像生成をサポート

テキスト-画像連携

生成された画像は入力テキストプロンプトと高度に連携

モデル能力

テキストから画像生成

高解像度画像合成

マルチスケール画像生成

使用事例

アート創作

アート作品生成

デザインやアート創作プロセスにおける画像生成に使用

高品質なアート作品を生成

教育ツール

創造的教育ツール

教育や創造的ツールとして使用

学生やクリエイターが概念を迅速に可視化するのを支援

研究

生成モデル研究

生成モデルの限界やバイアスを探求・理解するために使用

🚀 🐱 Sanaモデルカード

Sanaは、最大4096×4096解像度の画像を効率的に生成できるテキストから画像への変換フレームワークです。このモデルは、高解像度で高品質の画像を強力なテキスト - 画像アライメントで非常に高速に合成でき、ラップトップのGPUでも展開可能です。

✨ 主な機能

Sanaは、テキストプロンプトに基づいて画像を生成および変更することができます。これは、1つの固定された事前学習済みテキストエンコーダー (Gemma2 - 2B - IT) と1つの32x空間圧縮潜在特徴エンコーダー (DC - AE) を使用する線形拡散トランスフォーマーです。

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていません。

📚 ドキュメント

モデルの説明

属性	详情
開発者	NVIDIA, Sana
モデルタイプ	線形拡散トランスフォーマーベースのテキストから画像への生成モデル
モデルサイズ	1648Mパラメータ
モデル解像度	このモデルは、マルチスケールの高さと幅を持つ512pxベースの画像を生成するように開発されています。
ライセンス	NSCL v2 - custom。規制条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use
モデル説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。
詳細情報のリソース	私たちのGitHubリポジトリとarXivのSanaレポートをチェックしてください。

モデルのソース

研究目的では、私たちのgenerative - models GitHubリポジトリ (https://github.com/NVlabs/Sana) をお勧めします。これは、トレーニングと推論の両方に適しており、Flow - DPM - Solverのような最新の拡散サンプラーが統合されています。MIT Han - Lab は無料のSana推論を提供しています。

リポジトリ: https://github.com/NVlabs/Sana
デモ: https://nv-sana.mit.edu/