nova-d48w1024-osp480開源視頻生成模型 - 依文本提示生成、編輯視頻

首頁

Nova D48w1024 Osp480

由BAAI開發

北京智源研究院開發的非量化自迴歸文本生成視頻模型，能夠根據文本提示生成和編輯視頻

文本生成視頻開源協議:Apache-2.0 #文本生成視頻 #自迴歸擴散架構 #高分辨率視頻生成

下載量 314

發布時間 : 12/17/2024

模型概述

基於非量化視頻自迴歸擴散架構(NOVA)開發的模型，採用預訓練文本編碼器(Phi-2)和視頻VAE標記器(OpenSoraPlanV1.2-VAE)構建，能夠根據文本提示生成和編輯視頻

模型特點

高分辨率視頻生成

能夠生成768x480像素分辨率的視頻

文本條件生成

根據文本提示生成和編輯視頻內容

參數可調

可通過調整參數提升生成視頻的畫質

模型能力

文本到視頻生成

視頻編輯

單幀圖像生成

使用案例

研究與教育

生成模型研究

用於生成模型相關技術研究

教育工具開發

開發教育或創意工具

創意與設計

藝術創作

用於藝術創作與設計應用

🚀 NOVA (d48w1024-osp480) 模型卡片

NOVA (d48w1024-osp480) 是一個可基於文本提示生成和修改視頻的模型，在視頻生成領域具有重要價值。

✨ 主要特性

研發團隊：BAAI
模型類型：非量化自迴歸文本到視頻生成模型
模型大小：645M
模型精度：torch.float16 (FP16)
模型分辨率：768x480
模型描述：這是一個可用於基於文本提示生成和修改視頻的模型。它是一個非量化視頻自迴歸 (NOVA) 擴散模型，使用了預訓練的文本編碼器 ([Phi - 2](https://huggingface.co/microsoft/phi - 2)) 和一個 VAE 視頻分詞器 ([OpenSoraPlanV1.2 - VAE](https://huggingface.co/LanguageBind/Open - Sora - Plan - v1.2.0))。
模型許可證：Apache 2.0 許可證
更多信息資源：GitHub 倉庫

📦 安裝指南

使用 🤗 的 Diffusers 庫可以簡單高效地運行 NOVA。

pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/NOVA.git

💻 使用示例

基礎用法

import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")

video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)

高級用法

# 增加縱橫比和擴散步驟以提高視頻質量。
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video

model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")

prompt = "Many spotted jellyfish pulsating under water."

video = pipe(
  prompt,
  max_latent_length=9,
  num_inference_steps=128,  # default: 64
  num_diffusion_steps=100,  # default: 25
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)

📚 詳細文檔

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

生成模型的研究。
教育或創意工具中的應用。
藝術品的生成以及在設計和其他藝術過程中的使用。
探究和理解生成模型的侷限性和偏差。
安全部署有可能生成有害內容的模型。

以下是不適用的使用場景。

超出適用範圍的使用

該模型並非用於對人物或事件進行事實性或真實性的呈現，因此使用該模型生成此類內容超出了該模型的能力範圍。

濫用和惡意使用

使用該模型生成對個人殘酷的內容屬於對該模型的濫用。這包括但不限於：

錯誤信息和虛假信息。
嚴重暴力和血腥場景的呈現。
在未經個人同意的情況下冒充他人。
在可能看到的人未同意的情況下生成色情內容。
違反版權或許可材料使用條款的共享行為。
故意推廣或傳播歧視性內容或有害刻板印象。
違反版權或許可材料使用條款對其進行修改後的內容共享。
生成對人或其環境、文化、宗教等有貶低、非人化或其他有害的呈現。

侷限性和偏差

侷限性

模型的自動編碼部分存在信息損失。
模型無法渲染複雜的清晰文本。
模型無法實現完美的照片級真實感。
一般情況下，手指等部位可能無法正確生成。
該模型在網絡數據集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 和 [COYO - 700M](https://github.com/kakaobrain/coyo - dataset) 的子集上進行訓練，這些數據集包含成人、暴力和色情內容。