nova-d48w1024-osp480オープンソースビデオ生成モデル - テキストプロンプトによるビデオ生成と編集

Nova D48w1024 Osp480

BAAIによって開発

北京智源研究院が開発した非量子化自己回帰型テキストから動画生成モデルで、テキストプロンプトに基づいて動画を生成・編集可能

テキスト生成ビデオオープンソースライセンス:Apache-2.0 #テキストから動画生成 #自己回帰型拡散アーキテクチャ #高解像度動画生成

ダウンロード数 314

リリース時間 : 12/17/2024

モデル概要

非量子化動画自己回帰拡散アーキテクチャ(NOVA)に基づいて開発されたモデルで、事前学習済みテキストエンコーダ(Phi-2)と動画VAEトークナイザ(OpenSoraPlanV1.2-VAE)を採用し、テキストプロンプトに基づいて動画を生成・編集可能

モデル特徴

高解像度動画生成

768x480ピクセル解像度の動画を生成可能

テキスト条件付き生成

テキストプロンプトに基づいて動画コンテンツを生成・編集

パラメータ調整可能

パラメータを調整することで生成動画の画質を向上可能

モデル能力

テキストから動画生成

動画編集

単一フレーム画像生成

使用事例

研究と教育

生成モデル研究

生成モデル関連技術の研究に利用

教育ツール開発

教育やクリエイティブツールの開発に利用

クリエイティブとデザイン

アート創作

アート創作やデザインアプリケーションに利用

🚀 NOVA (d48w1024-osp480) モデルカード

このモデルは、テキストプロンプトに基づいてビデオを生成および編集するために使用できます。非量子化ビデオ自己回帰（NOVA）拡散モデルを利用し、事前学習されたテキストエンコーダとVAEビデオトークナイザーを使用しています。

📚 ドキュメント

モデルの詳細

属性	詳情
開発元	BAAI
モデルタイプ	非量子化自己回帰型テキストビデオ生成モデル
モデルサイズ	645M
モデル精度	torch.float16 (FP16)
モデル解像度	768x480
モデル説明	これは、テキストプロンプトに基づいてビデオを生成および変更するために使用できるモデルです。非量子化ビデオ自己回帰 (NOVA) 拡散モデルであり、事前学習されたテキストエンコーダ (Phi-2) と1つのVAEビデオトークナイザー (OpenSoraPlanV1.2-VAE) を使用しています。
モデルライセンス	Apache 2.0 License
詳細情報のリソース	GitHubリポジトリ

利用例

基本的な使用法

🤗のDiffusersライブラリを使用して、NOVAを簡単かつ効率的に実行する方法です。

pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/NOVA.git

パイプラインを実行するコードは以下の通りです。

import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")

video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)

# Increase AR and diffusion steps for better video quality.
video = pipe(
  prompt,
  max_latent_length=9,
  num_inference_steps=128,  # default: 64
  num_diffusion_steps=100,  # default: 25
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)

用途

直接的な利用

このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。

生成モデルの研究。
教育または創造的なツールへの応用。
アートワークの生成とデザインなどの芸術的なプロセスでの使用。
生成モデルの制限とバイアスの調査と理解。
有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。

以下に除外される利用について説明します。

対象外の利用

このモデルは、人やイベントの事実的または真実の表現として訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。

誤用と悪意のある利用

このモデルを個人に残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには、以下が含まれますが、これらに限定されません。

誤情報と偽情報。
重大な暴力と残虐な描写。
本人の同意なしでの個人のなりすまし。
見る人の同意なしの性的なコンテンツ。
著作権またはライセンスされた素材の使用条件に違反した共有。
差別的なコンテンツまたは有害なステレオタイプの意図的な宣伝または拡散。
著作権またはライセンスされた素材の改変コンテンツを使用条件に違反して共有すること。
人やその環境、文化、宗教などの侮辱的、非人間的、またはその他有害な表現を生成すること。

制限とバイアス

制限

モデルの自動符号化部分は損失があります。
モデルは複雑で判読可能なテキストをレンダリングできません。
モデルは完全な写実性を達成しません。
一般的に指などが適切に生成されない場合があります。
モデルはウェブデータセット LAION-5B と COYO-700M のサブセットで訓練されており、これには成人向け、暴力的、性的なコンテンツが含まれています。