🚀 Sana
Sanaは、最大4096×4096解像度の画像を効率的に生成できるテキストから画像への生成フレームワークです。このモデルは、高解像度で高品質の画像を高速に合成でき、ラップトップのGPUでも展開可能です。
🚀 クイックスタート
ソースコードは https://github.com/NVlabs/Sana で入手できます。
✨ 主な機能
- 最大4096×4096解像度の画像を生成可能
- 高解像度で高品質の画像を高速に合成
- ラップトップのGPUでも展開可能
- 絵文字、中国語、英語、およびそれらの混合プロンプトをサポート
📦 インストール
このセクションの具体的なインストール手順は元文書に記載されていないため、省略します。
💻 使用例
基本的な使用法
Sana公式コードリポジトリで.pth
モデルを使用するには、元のGitHubガイドを参照してください。
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/4096ms/Sana_1600M_img4096_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_4Kpx_BF16/checkpoints/Sana_1600M_4Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(
prompt=prompt,
height=4096,
width=4096,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana_4K.png', nrow=1, normalize=True, value_range=(-1, 1))
📚 ドキュメント
モデルの説明
属性 |
详情 |
開発者 |
NVIDIA, Sana |
モデルタイプ |
Linear-Diffusion-Transformerベースのテキストから画像への生成モデル |
モデルサイズ |
1648Mパラメータ |
モデル解像度 |
このモデルは、マルチスケールの高さと幅で4Kpxベースの画像を生成するように開発されています。 |
ライセンス |
NSCL v2-custom。規制条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use |
モデル説明 |
これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。 1つの固定された事前学習済みテキストエンコーダー(Gemma2-2B-IT)と1つの32x空間圧縮潜在特徴エンコーダー(DC-AE)を使用する線形拡散トランスフォーマーです。 |
特殊事項 |
このモデルは、ベースモデルEfficient-Large-Model/Sana_1600M_1024px_BF16からファインチューニングされており、絵文字、中国語、英語、およびそれらの混合プロンプトをサポートします。 |
詳細情報のリソース |
詳細については、GitHubリポジトリとarXivのSanaレポートを参照してください。 |
モデルのソース
研究目的では、generative-models
のGitHubリポジトリをお勧めします。このリポジトリは、トレーニングと推論の両方に適しており、Flow-DPM-Solverのような最新の拡散サンプラーが統合されています。MIT Han-Labは、無料のSana推論を提供しています。
使用方法
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下のようなものがあります。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用
- 教育または創造的ツールでの応用
- 生成モデルの研究
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開
- 生成モデルの制限とバイアスの調査と理解
ただし、このモデルは人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成することはこのモデルの能力範囲外です。
🔧 技術詳細
制限事項
- 完全な写真的リアリズムを達成できません
- 複雑で読み取り可能なテキストをレンダリングできません
- 一般的に、指などが適切に生成されない場合があります
- モデルのオートエンコーダー部分は損失があります
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルはNSCL v2-customライセンスの下で提供されています。規制条項はNVIDIAライセンスです。追加情報については、Gemma Terms of Use | Google AI for Developers for Gemma-2-2B-IT、Gemma Prohibited Use Policy | Google AI for Developersを参照してください。
⚠️ 重要提示
データの制限により、当社のモデルは複雑なシーン、テキスト、および人の手の生成能力が限られています。
💡 使用建议
モデルの性能は、プロンプトの複雑さと長さを増やすことで向上させることができます。以下は、プロンプトとサンプルの例です。
4Kサンプル
画像 |
 |
 |
 |
 |
プロンプト |
ハート型の熱気球。グランドキャニオン |
溶けているリンゴ |
銀色の髪がまばらに混じったアジア系の中年女性 が、割れた磁器の海に入り組んで埋め込まれ、割れて細片になっています。磁器は、光沢のある青、緑、オレンジ、赤のマットなスプラッターペイントパターンで輝き、彼女のダンスを動きと静止の超現実的な並置で捉えています。彼女の肌の色は、磁器のような薄い色合いで、彼女の姿にほぼ神秘的な質感を加えています。 |
モダンな贅沢な現代的な贅沢な住宅のインテリア が、廃墟の素材を模倣したスタイル、レイトレーシング、不気味な家、石で、自然の本質、灰色とブロンズ、ダイナミックな屋外ショットを捉えています。 |