Sana_600M_1024pxオープンソーステキスト生成画像フレームワーク

ホーム

Sana 600M 1024px

Efficient-Large-Modelによって開発

Sanaは効率的なテキストから画像を生成するフレームワークで、最大4096×4096の解像度の画像を生成可能です。高速に高解像度・高品質な画像を合成する能力を備えています。

テキスト生成画像複数言語対応#高解像度画像生成 #高速テキストから画像への変換 #4096px超高清出力

ダウンロード数 285

リリース時間 : 11/30/2024

モデル概要

Sanaは線形拡散トランスフォーマーをベースにしたテキストから画像を生成するモデルで、Gemma2-2B-ITをテキストエンコーダー、DC-AEを潜在特徴エンコーダーとして使用し、効率的に高解像度画像を生成できます。

モデル特徴

高解像度画像生成

最大4096×4096の高品質画像を生成可能です。

効率的な推論

ノートパソコンのGPU上でも効率的にデプロイ・実行可能です。

強力なテキスト-画像整合性

生成された画像は入力テキストと高い一貫性を持ちます。

モデル能力

テキストから画像生成

高解像度画像合成

高速画像生成

使用事例

アート創作

アート作品生成

アート作品やデザインプロセスの創造的補助として使用されます。

高品質なアート画像を生成します。

教育

教育ツール

教育や創造的ツールにおける画像生成に使用されます。

直観的な画像による教育補助を提供します。

研究

生成モデル研究

生成モデルの限界やバイアスを探求・理解するために使用されます。

生成モデル技術の発展を推進します。

🚀 🐱 Sanaモデルカード

Sanaは、最大4096 × 4096解像度の画像を効率的に生成できるテキストから画像への変換フレームワークです。Sanaは、高解像度で高品質の画像を、強力なテキストと画像のアライメントで非常に高速に合成することができ、ノートパソコンのGPUでもデプロイ可能です。

ソースコードはこちらで入手できます。

teaser_page1

✨ 主な機能

モデルについて

teaser_page1

属性	详情
開発元	NVIDIA, Sana
モデルタイプ	線形拡散トランスフォーマーベースのテキストから画像への生成モデル
モデルサイズ	1648Mパラメータ
モデル解像度	このモデルは、マルチスケールの高さと幅で1024pxベースの画像を生成するように開発されています。
ライセンス	NSCL v2-custom。規制条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use
モデル説明	これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。 1つの固定された事前学習済みテキストエンコーダー (Gemma2-2B-IT) と1つの32x空間圧縮潜在特徴エンコーダー (DC-AE) を使用する線形拡散トランスフォーマーです。
詳細情報リソース	私たちのGitHubリポジトリとarXivのSanaレポートをチェックしてください。

モデルソース

研究目的の場合、私たちはgenerative-modelsのGitHubリポジトリ (https://github.com/NVlabs/Sana) をお勧めします。これは、トレーニングと推論の両方に適しており、Flow-DPM-Solverのような最新の拡散サンプラーが統合されています。 MIT Han-Lab は無料のSana推論を提供しています。