オープンソースSana文生図フレームワーク - ノートPCのGPUで4096×4096の高解像度・高品質な画像を迅速に作成

Sana 1600M 1024px BF16

Efficient-Large-Modelによって開発

Sanaは最大4096×4096解像度の画像を効率的に生成できるテキスト-to-画像フレームワークで、ノートPCのGPU上で高解像度・高品質かつテキストと画像の強力な整合性を持つ画像を迅速に合成できます。

画像生成複数言語対応#高解像度画像生成の効率化 #線形拡散Transformerアーキテクチャ #ノートPC GPU対応

ダウンロード数 1,129

リリース時間 : 12/10/2024

モデル概要

Sanaは線形拡散Transformerベースのテキスト-to-画像生成モデルで、1024ピクセルを基準としたマルチスケールの縦横比画像生成のために開発され、固定の事前学習済みテキストエンコーダーと32倍空間圧縮の潜在特徴エンコーダーを採用しています。

モデル特徴

高解像度画像生成

最大4096×4096解像度の画像生成をサポート

効率的な推論

最適化されたアーキテクチャでノートPCGPU上で効率的に動作

強力なテキスト画像整合

生成画像が入力テキストプロンプトと高度に一致

マルチスケール対応

1024ピクセル基準のマルチスケール縦横比画像生成専用設計

モデル能力

テキストから画像生成

高解像度画像合成

マルチスケール画像生成

使用事例

クリエイティブアート

アートワーク生成

芸術作品やデザイン要素の生成に使用

高品質なアート画像

クリエイティブツール開発

教育やクリエイティブツールのコアコンポーネントとして

インタラクティブなクリエイティブアプリケーション

研究

生成モデル研究

拡散モデルとTransformerアーキテクチャの探求に使用

新しいモデルアーキテクチャと訓練方法

モデル安全性研究

潜在的に有害なコンテンツ生成能力を持つモデルの安全な展開を研究

より安全な生成モデル展開方案

🚀 サナ（Sana）モデル

サナ（Sana）は、テキストから画像を生成するフレームワークです。最大4096×4096解像度の画像を効率的に生成でき、高解像度で高品質な画像を高速に合成し、ラップトップのGPUでも動作可能です。

✨ 主な機能

最大4096×4096解像度の画像を生成可能
高解像度で高品質な画像を高速に合成
ラップトップのGPUでも動作可能

📦 インストール

本文書にインストール手順は記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル概要

属性	詳情
モデル名	Sana
タグ	text-to-image、Sana、1024px_based_image_size、BF16
言語	en、zh
ベースモデル	Efficient-Large-Model/Sana_1600M_1024px
パイプラインタグ	text-to-image
開発元	NVIDIA, Sana
モデルタイプ	Linear-Diffusion-Transformer-based text-to-image generative model
モデルサイズ	1648Mパラメータ
モデル精度	torch.bfloat16 (BF16)
モデル解像度	1024pxをベースにした、マルチスケールの高さと幅の画像を生成
ライセンス	NSCL v2-custom。管理条項: NVIDIA License。追加情報: [Gemma Terms of Use
モデル説明	このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。1つの固定された事前学習済みのテキストエンコーダー (Gemma2-2B-IT) と1つの32x空間圧縮された潜在特徴エンコーダー (DC-AE) を使用するLinear Diffusion Transformerです。
詳細情報リソース	GitHubリポジトリと arXivのSanaレポートを参照してください。

モデルソース

研究目的では、generative-models GitHubリポジトリ (https://github.com/NVlabs/Sana) をおすすめします。これはトレーニングと推論の両方に適しており、Flow-DPM-Solverのような最新の拡散サンプラーが統合されています。MIT Han-Lab は無料のSana推論を提供しています。

リポジトリ: https://github.com/NVlabs/Sana
デモ: https://nv-sana.mit.edu/

🧨 Diffusers

PR開発中: Sana と DC-AE

使用方法

直接使用

このモデルは研究目的のみを意図しています。考えられる研究分野やタスクには以下のようなものがあります。

アートワークの生成とデザインや他の芸術的プロセスでの使用
教育または創造的ツールでの応用
生成モデルの研究
有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
生成モデルの制限とバイアスの調査

以下に記載する使用方法は対象外です。

対象外の使用

このモデルは、人物やイベントを事実通りに表現するように訓練されていないため、そのようなコンテンツを生成することはこのモデルの能力範囲外です。

🔧 技術詳細

制限事項

完全な写真的リアリズムを達成できません
複雑な読み取り可能なテキストをレンダリングできません
一般的に指などを適切に生成できないことがあります
モデルのオートエンコーダー部分は損失があります

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

📄 ライセンス

このモデルは NSCL v2-custom ライセンスの下で提供されています。管理条項はNVIDIA Licenseです。追加情報については、Gemma Terms of Use | Google AI for Developers for Gemma-2-2B-IT、Gemma Prohibited Use Policy | Google AI for Developers を参照してください。