🚀 安定ビデオ拡散 画像からビデオへのモデルカード
Stable Video Diffusion (SVD) 画像からビデオへのモデルは、静止画像を条件付きフレームとして入力し、そこからビデオを生成する拡散モデルです。

⚠️ 重要提示
このモデルの商用利用については、https://stability.ai/license を参照してください。
✨ 主な機能
SVD 画像からビデオへのモデルは、画像を条件付けとして短いビデオクリップを生成するように訓練された潜在拡散モデルです。同じサイズのコンテキストフレームを与えると、このモデルは解像度 576x1024 で 14 フレームを生成するように訓練されています。また、時間的な一貫性のために広く使用されている f8-decoder を微調整しています。利便性のために、標準的なフレーム単位のデコーダも こちら で提供しています。
📦 インストール
モデルの利用に関しては、https://github.com/Stability-AI/generative-models を参照してください。
📚 ドキュメント
モデルの詳細
- 開発元:Stability AI
- 資金提供元:Stability AI
- モデルの種類:生成型画像からビデオへのモデル
属性 |
详情 |
モデルの種類 |
生成型画像からビデオへのモデル |
開発元 |
Stability AI |
資金提供元 |
Stability AI |
研究目的では、最も人気のある拡散フレームワーク(訓練と推論の両方)を実装した generative-models
GitHub リポジトリ (https://github.com/Stability-AI/generative-models) を推奨します。
- リポジトリ:https://github.com/Stability-AI/generative-models
- 論文:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
評価
上のグラフは、SVD-画像からビデオへのモデルが GEN-2 および PikaLabs に対するユーザーの好みを評価しています。SVD-画像からビデオへのモデルは、ビデオ品質の面で人間の投票者に好まれています。ユーザー調査の詳細については、研究論文 を参照してください。
使用方法
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- 生成モデルの研究
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開
- 生成モデルの制限やバイアスの調査と理解
- アートワークの生成とデザインやその他の芸術的プロセスでの使用
- 教育または創造的ツールでのアプリケーション
以下に除外される使用方法を説明します。
想定外の使用
このモデルは、人やイベントの事実的または真実の表現として訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。モデルは、Stability AI の 利用許諾ポリシー に違反する方法で使用してはいけません。
制限とバイアス
制限
- 生成されるビデオは比較的短く(<= 4 秒)、モデルは完全な写実性を達成していません。
- モデルは動きのないビデオや、非常にゆっくりしたカメラパンのビデオを生成することがあります。
- モデルはテキストで制御することができません。
- モデルは読み取り可能なテキストをレンダリングすることができません。
- 顔や人全体が適切に生成されないことがあります。
- モデルのオートエンコーディング部分は損失があります。
推奨事項
このモデルは研究目的のみを意図しています。
🔧 技術詳細
全ての潜在的なデータソースが最終的な訓練に含まれており、SVD 論文で説明されている提案されたデータフィルタリング方法がデータセットの品質管理/フィルタリングを行うため、データはホールドアウトされていません。安全性/不適切コンテンツフィルタリングに関しては、検討されたソースは安全と見なされるか、社内の不適切コンテンツフィルターでフィルタリングされました。訓練データの準備には明示的な人的労力は関与していません。ただし、モデルの出力と品質の人的評価は、モデルの品質とパフォーマンスを評価するために広く使用されています。評価は、主に米国、英国、カナダからの流暢な英語を話す請負業者を雇った第三者の請負プラットフォーム(Amazon Sagemaker、Amazon Mechanical Turk、Prolific)で行われました。各作業者は評価に費やした時間に対して 1 時間あたり 12 ドルの報酬を受け取りました。このモデルの開発には他の第三者は関与しておらず、モデルは Stability AI 内で完全に開発されました。SVD チェックポイントの訓練には、合計で約 200,000 A100 80GB 時間が必要でした。訓練の大部分は 48 * 8 A100 で行われ、一部の段階ではそれ以上または以下の時間がかかりました。結果として生じる CO2 排出量は約 19,000kg CO2 eq. で、消費エネルギーは約 64000 kWh です。公開されたチェックポイント(SVD/SVD-XT)は、与えられた入力画像に密接に従って短いビデオ/アニメーションを生成する画像からビデオへのモデルです。モデルは既存の提供された画像に依存しているため、特定の素材や新しい不安全なコンテンツを開示する潜在的なリスクは最小限です。これはまた、第三者の独立したレッドチーミングサービスによって評価され、安全性のレッドチーミングの様々な分野で 90% 以上の高い信頼度で私たちの結論に同意しています。信頼性に関する外部評価も行われ、実際の信頼できるビデオに対して 95% 以上の信頼度が得られました。リリース時のデフォルト設定では、SVD は A100 80GB カードで生成に約 100 秒、SVD-XT は約 180 秒かかります。品質/メモリ/速度をトレードオフするためのいくつかの最適化を行うことで、より高速な推論またはより低い VRAM カードでの推論を行うことができます。モデルとその開発プロセスおよび使用プロトコルに関連する情報は、GitHub リポジトリ、関連する研究論文、および HuggingFace モデルページ/カードに記載されています。公開されたモデルの推論とデモコードは、デフォルトで画像レベルの透かしが有効になっており、出力を検出するために使用できます。これは imWatermark Python ライブラリを介して行われます。
モデルは静止した初期画像からビデオを生成するために使用できます。ただし、私たちは、ライセンスと利用許諾ポリシーの条件に従って、違法、不適切、または誤解を招くようなモデルの使用を禁止しています。オープンウェイトのリリースに関しては、私たちの訓練データフィルタリング対策がこのリスクをある程度軽減しています。これらの制限は、stablevideo.com のユーザー向けインターフェイスで明示的に適用され、警告が表示されます。私たちは第三者のインターフェイスについては一切責任を負いません。入力フィルターを迂回して上記の不快なまたは不適切なコンテンツを引き出す初期画像を送信することも禁止されています。stablevideo.com の安全性フィルタリングチェックは、モデルの入力と出力に対して独立して実行されます。ユーザー向けインターフェイスの詳細については、https://www.stablevideo.com/faq を参照してください。利用許諾ポリシーおよびここで説明されている他の対策や条件を超えて、モデルは Foundation Model Transparency Index で説明されているような追加のモデル動作介入の対象にはなりません。
stablevideo.com では、ユーザーが生成したビデオに対する賛成票/反対票の形式で嗜好データを保存しており、ユーザーがビデオを生成している間にペアワイズランカーが実行されます。この使用データは、Stability AI の将来の画像/ビデオモデルとサービスを改善するためにのみ使用されます。Stability AI と stablevideo.com の管理者以外の第三者には使用データへのアクセスは与えられていません。SVD の使用統計については、関心のあるユーザーには HuggingFace モデルのダウンロード/使用統計を主な指標として参照するようお勧めします。第三者のアプリケーションもモデルの使用統計を報告しています。私たちはまた、いくつかのマイルストーンに達した際に stablevideo.com の集計使用統計を公開することも検討するかもしれません。
📄 ライセンス
- ライセンス:other
- ライセンス名:stable-video-diffusion-community
- ライセンスリンク:LICENSE.md