🚀 Sana
Sanaは、最大4096×4096解像度の画像を効率的に生成できるテキスト・イメージ変換フレームワークです。このモデルは、高解像度で高品質の画像を、強力なテキスト・イメージアライメントで非常に高速に合成することができ、ラップトップのGPUでもデプロイ可能です。
🚀 クイックスタート
ソースコードはこちらから入手できます。
✨ 主な機能
- 最大4096×4096解像度の画像を効率的に生成
- 高解像度で高品質の画像を高速に合成
- テキスト・イメージアライメントが強力
- ラップトップのGPUでもデプロイ可能
- Emoji、中国語、英語、およびそれらの混合プロンプトに対応
📦 インストール
READMEにインストール手順は記載されていません。
💻 使用例
基本的な使用法
import torch
from app.sana_pipeline import SanaPipeline
from torchvision.utils import save_image
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
generator = torch.Generator(device=device).manual_seed(42)
sana = SanaPipeline("configs/sana_config/2048ms/Sana_1600M_img2048_bf16.yaml")
sana.from_pretrained("hf://Efficient-Large-Model/Sana_1600M_2Kpx_BF16/checkpoints/Sana_1600M_2Kpx_BF16.pth")
prompt = 'a cyberpunk cat with a neon sign that says "Sana"'
image = sana(
prompt=prompt,
height=2048,
width=2048,
guidance_scale=5.0,
pag_guidance_scale=2.0,
num_inference_steps=20,
generator=generator,
)
save_image(image, 'output/sana.png', nrow=1, normalize=True, value_range=(-1, 1))
📚 ドキュメント
モデルの説明
属性 |
详情 |
開発者 |
NVIDIA, Sana |
モデルタイプ |
Linear-Diffusion-Transformerベースのテキスト・イメージ生成モデル |
モデルサイズ |
1648Mパラメータ |
モデル解像度 |
このモデルは、マルチスケールの高さと幅を持つ2Kpxベースの画像を生成するように開発されています。 |
ライセンス |
NSCL v2-custom。管理条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use |
モデルの説明 |
これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。 これは、1つの固定された事前学習済みテキストエンコーダー(Gemma2-2B-IT)と1つの32x空間圧縮潜在特徴エンコーダー(DC-AE)を使用する線形拡散トランスフォーマーです。 |
特徴 |
このモデルは、ベースモデルEfficient-Large-Model/Sana_1600M_1024px_BF16から微調整されており、Emoji、中国語、英語、およびそれらの混合プロンプトをサポートしています。 |
詳細情報のリソース |
GitHubリポジトリとarXivのSanaレポートをご覧ください。 |
モデルのソース
研究目的では、generative-models
のGitHubリポジトリ(https://github.com/NVlabs/Sana)をお勧めします。これは、トレーニングと推論の両方に適しており、Flow-DPM-Solverのような最新の拡散サンプラーが統合されています。MIT Han-Labは、無料のSana推論を提供しています。
- リポジトリ: https://github.com/NVlabs/Sana
用途
直接利用
このモデルは研究目的のみを意図しています。可能な研究分野とタスクには以下が含まれます。
- アートワークの生成と、デザインやその他の芸術的プロセスでの使用。
- 教育または創造的ツールでのアプリケーション。
- 生成モデルの研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
以下に記載されている用途は除外されます。
対象外の利用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
🔧 技術詳細
制限事項
- このモデルは完全な写真的リアリズムを達成しません。
- このモデルは複雑な読み取り可能なテキストをレンダリングすることができません。
- 一般的に、指などは適切に生成されない場合があります。
- モデルのオートエンコーディング部分は損失があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルはNSCL v2-customライセンスの下で提供されています。管理条項はNVIDIAライセンスです。追加情報については、Gemma Terms of Use | Google AI for Developers for Gemma-2-2B-IT, Gemma Prohibited Use Policy | Google AI for Developersを参照してください。
⚠️ 重要提示
- 複雑なシーンの作成における弱点: データの制限により、当社のモデルは複雑なシーン、テキスト、および人の手を生成する能力が限られています。
- 能力の向上: モデルのパフォーマンスは、プロンプトの複雑さと長さを増やすことで向上させることができます。以下は、プロンプトとサンプルの例です。
2Kサンプル
画像 |
 |
 |
 |
 |
プロンプト |
編み模様のオレンジと青のセーターを着たモデル、詳細な顔、生姜色の髪、青い背景、Tim Walkerのスタイルで撮影 |
鮮やかな 、リアルな炎で構成された人物のスタジオショット、横顔で歩いている、顔はなし、炎が自然に後ろに流れる、激しい赤色の背景、Helmut Newtonによって撮影、Hasselblad H6Dと80mm f/2.8レンズを使用、f/5.6、1/125s、ISO 400。炎は激しく詳細で、自然でリアルなテクスチャが動きを強調しています。HD画質、自然な外観 |
大きな 、ふわふわした綿の雲で頭を覆った男性の超現実的な写真、カメラに向かって肘掛け椅子に座って、20世紀初頭の古いコンピューターを使っています。コンピューターは緑色の画面モニターを持っています。彼はピンクのスーツを着ており、全体的なシーンはソフトなパステルカラーパレットで、レトロな未来感、1970年代の雰囲気があります。 |
かっこいい生姜色の猫の高級ポートレート 、ハイファッションスタイル、クレイジーな眼鏡とスタイリッシュな服、宝石の高級ネックレス、百合、オレンジ、レモンで構成された帽子、色: 濃い緑と金色、背景: 暗く高級感あり、超詳細、スタイル: 生々しい、映画的な光、キヤノン、表現力がありオリジナル、キヤノン、50mmレンズ、編集用、外観: 高価そう、雰囲気: やる気があり良い雰囲気 |
画像 |
 |
 |
 |
プロンプト |
雪山の頂上で太陽が昇る |
可愛い 🐼 が 🎋 を食べている、水墨画スタイル |
孤舟に蓑笠を着た老人 |
画像 |
 |
 |
 |
プロンプト |
プールの水の中に浮かんでいる猫、透明で澄んだ水、薄い白と青緑色、y2k美学、ソフトで夢のような色、鮮やかな色、人気のInstagram、高度な詳細、リアルな写真感 |
黒猫が地面に座っている、私たちとは反対の方向を向いて、その影を前に落としています。シーンの後ろの光源によって、雄大なライオンのシルエットが壁に投影されています。白黒写真、柔らかい照明、高コントラスト、シャープな焦点、対称的な構図、シンプルな背景、ポートレートレンズ、静止した姿勢。 |
🐶 と 🐱 が ⚽ で遊んでいる |