SANA1.5_4.8B_1024pxオープンソース画像生成モデル - 無料でデプロイ可能、1024px高解像度画像創作に対応

ホーム

SANA1.5 4.8B 1024px

Efficient-Large-Modelによって開発

SANA-1.5は効率的なテキストから画像を生成するモデルで、線形拡散Transformerアーキテクチャに基づき、1024pxの高解像度画像生成をサポートします。

テキスト生成画像複数言語対応#効率的なモデル拡張 #1024px高解像度画像生成 #線形拡散Transformer

ダウンロード数 268

リリース時間 : 3/16/2025

モデル概要

SANA-1.5はトレーニング時と推論時の拡張技術を融合した効率的なテキストから画像を生成するモデルで、4.8Bのパラメータを持ち、マルチスケールのアスペクト比画像生成をサポートします。

モデル特徴

効率的なモデル拡張

1.6Bパラメータから4.8Bへ拡張し、性能は新規トレーニングと同等または優れ、トレーニングコストを60%削減

深層剪定サポート

任意サイズのモデル縮小をサポート

推論拡張技術

小モデル+推論拡張 > 大モデル

高解像度生成

1024pxベースのマルチスケールアスペクト画像生成をサポート

モデル能力

テキスト生成画像

高解像度画像生成

マルチスケール画像生成

使用事例

アート創作

アート創作支援

テキストプロンプトに基づき芸術作品を生成

芸術的なスタイルを持つ画像を生成

教育ツール

創造的教育ツール

教育用の創造的ツールを開発

学習内容を視覚化し学生を支援

研究

生成モデル研究

生成モデルの性能と限界を研究

生成モデル技術の進歩を推進

🚀 サナ（Sana）モデルカード

サナ（Sana）は、テキストから画像を生成するための効率的なモデルです。このモデルは、トレーニング時間と推論時間の技術をスケーリングすることで、高い性能を実現しています。

✨ 主な機能

モデル

teaser_page1

私たちはSANA - 1.5を紹介します。これは、トレーニング時間と推論時間の技術をスケーリングした効率的なモデルです。SANA - 1.5は以下の特徴を備えています。

効率的なモデル拡張：1.6BのSana - 1.0モデルから4.8Bへの拡張が可能で、ゼロからのトレーニングと同等以上の性能を達成し、トレーニングコストを60％削減します。
効率的なモデル深度の剪定：任意のモデルサイズをスリム化できます。
強力なVLM選択に基づく推論スケーリング：小さいモデル + 推論スケーリング > 大きいモデル。
トップクラスのGenEvalとDPGBenchの結果：詳細な結果は以下の表に示されています。

model growth performance on GenEval 8-bit optimizer

ソースコードはhttps://github.com/NVlabs/Sanaで入手できます。

モデルの説明

属性	详情
開発元	NVIDIA, Sana
モデルタイプ	スケーラブルな線形拡散トランスフォーマーベースのテキスト - 画像生成モデル
モデルサイズ	48億パラメータ
モデル精度	torch.bfloat16 (BF16)
モデル解像度	このモデルは、多スケールの高さと幅で1024pxベースの画像を生成するように開発されています。
ライセンス	NSCL v2 - custom。規制条項：NVIDIAライセンス。追加情報：[Gemma Terms of Use
モデル説明	これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー ([Gemma2 - 2B - IT](https://huggingface.co/google/gemma - 2 - 2b - it)) と1つの32倍空間圧縮された潜在特徴エンコーダー ([DC - AE](https://hanlab.mit.edu/projects/dc - ae)) を使用する線形拡散トランスフォーマーです。
詳細情報のリソース	私たちのGitHubリポジトリとarXivのSANA - 1.5レポートをチェックしてください。

モデルのソース

研究目的では、私たちのgenerative - models GitHubリポジトリ (https://github.com/NVlabs/Sana) をお勧めします。これはトレーニングと推論の両方に適しており、Flow - DPM - Solverのような最新の拡散サンプラーが統合されています。[MIT Han - Lab](https://nv - sana.mit.edu/) は無料のSana推論を提供しています。