Sana_Sprint_0.6B_1024pxオープンソース画像生成モデル - 高効率推論で迅速に高品質画像を生成

Sana Sprint 0.6B 1024px

Efficient-Large-Modelによって開発

SANA-Sprintは超効率的なテキストから画像を生成する拡散モデルで、推論ステップを20ステップから1-4ステップに削減しながらトップクラスの性能を維持します。

テキスト生成画像複数言語対応#単段拡散モデル #1024ピクセル高精細生成 #リアルタイム画像生成

ダウンロード数 52

リリース時間 : 3/31/2025

モデル概要

SANA-SprintはNVIDIAとSanaチームが開発した超効率的なテキストから画像を生成する拡散モデルで、連続時間一貫性蒸留技術を採用し、1-4ステップの高品質画像生成をサポートし、ControlNetを統合してリアルタイムインタラクティブな画像生成を実現します。

モデル特徴

超効率的な推論

推論ステップを20ステップから1-4ステップに削減し、H100上で1024×1024画像を0.1秒（テキストから画像）および0.25秒（ControlNet）の遅延で生成します。

トレーニング不要の連続時間一貫性蒸留技術

sCM技術を採用して高価な繰り返しトレーニングを排除し、効率的なモデル最適化を実現します。

統一適応ステップモデル

1-4ステップの高品質画像生成をサポートし、さまざまなニーズに柔軟に対応します。

ControlNet統合

リアルタイムインタラクティブな画像生成を実現し、ユーザーエクスペリエンスを向上させます。

モデル能力

テキストから画像生成

画像編集

リアルタイムインタラクティブな画像生成

使用事例

アート創作

アート作品生成

テキストプロンプトに基づいてアート作品を生成

高品質なアート作品を生成

デザイン創作

デザイナーがクリエイティブデザインを行うのを支援

迅速にデザインスケッチを生成

教育ツール

クリエイティブ教育ツール

教育用のクリエイティブツールを開発

学生がクリエイティブな概念を理解するのを支援

研究

生成モデル研究

効率的な生成モデルの研究に使用

生成モデル技術の発展を推進

🚀 🐱 Sanaモデルカード

Sanaとsana-sprintは、テキストから画像生成を行う超効率的な拡散モデルです。このモデルは、推論ステップを20から1 - 4に減らしながら、最先端のパフォーマンスを達成します。

logo

✨ 主な機能

デモ

学習パイプライン

teaser_page1

モデルの効率性

teaser_page1

SANA-Sprintは、テキストから画像生成（T2I）のための超効率的な拡散モデルです。推論ステップを20から1 - 4に減らしながら、最先端のパフォーマンスを達成します。主要な革新点は以下の通りです。 (1) 連続時間一貫性蒸留（sCM）のための学習不要アプローチで、高コストの再学習を排除します。 (2) 1 - 4ステップでの高品質生成のための統一的なステップ適応型モデル。 (3) リアルタイムインタラクティブ画像生成のためのControlNet統合。

SANA-Sprintは、1ステップで7.59 FIDと0.74 GenEvalを達成し、FLUX-schnell（7.94 FID / 0.71 GenEval）を上回り、かつ10倍高速（H100で0.1秒対1.1秒）です。H100で1024×1024画像の場合、0.1秒（T2I）と0.25秒（ControlNet） のレイテンシーで、RTX 4090では0.31秒（T2I）です。このため、SANA-SprintはAI搭載のコンシューマアプリケーション（AIPC）に最適です。

ソースコードは、https://github.com/NVlabs/Sana で入手できます。

モデルの説明

属性	详情
開発元	NVIDIA, Sana
モデルタイプ	連続時間一貫性蒸留を用いたワンステップ拡散
モデルサイズ	0.6Bパラメータ
モデル精度	torch.bfloat16 (BF16)
モデル解像度	このモデルは、多尺度の高さと幅で1024pxベースの画像を生成するように開発されています。
ライセンス	NSCL v2-custom。規制条項: NVIDIAライセンス。追加情報: [Gemma Terms of Use
モデル説明	このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。1つの固定された事前学習済みテキストエンコーダー (Gemma2-2B-IT) と1つの32x空間圧縮潜在特徴エンコーダー (DC-AE) を使用する線形拡散トランスフォーマーです。
詳細情報リソース	GitHubリポジトリと arXivのSANA-Sprintレポートをご確認ください。

モデルのソース

研究目的では、トレーニングと推論の両方に適している generative-models GitHubリポジトリ (https://github.com/NVlabs/Sana) をお勧めします。 MIT Han-Lab は、無料のSANA-Sprint推論を提供しています。

リポジトリ: https://github.com/NVlabs/Sana
デモ: https://nv-sana.mit.edu/sprint
ガイダンス: https://github.com/NVlabs/Sana/asset/docs/sana_sprint.md

📚 ドキュメント

直接的な利用

このモデルは、研究目的のみを想定しています。可能な研究分野とタスクには以下が含まれます。

アートワークの生成と、デザインやその他の芸術的プロセスでの利用。
教育または創造的ツールでのアプリケーション。
生成モデルの研究。
有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限とバイアスの調査と理解。

除外される利用については、以下で説明します。

想定外の利用

このモデルは、人やイベントの事実的または真実の表現を生成するように学習されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

制限事項とバイアス

制限事項

このモデルは、完全な写実感を達成しません。
このモデルは、複雑な読み取り可能なテキストをレンダリングすることができません。
一般的に、指などが適切に生成されない場合があります。
モデルのオートエンコーディング部分は損失があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

📄 ライセンス

このモデルは、NSCL v2-custom ライセンスの下で提供されています。規制条項はNVIDIAライセンスです。追加情報については、Gemma Terms of Use | Google AI for Developers for Gemma-2-2B-IT、Gemma Prohibited Use Policy | Google AI for Developers を参照してください。