🚀 NOVA (d48w1024-osp480) 模型卡片
NOVA (d48w1024-osp480) 是一個可基於文本提示生成和修改視頻的模型,在視頻生成領域具有重要價值。
✨ 主要特性
- 研發團隊:BAAI
- 模型類型:非量化自迴歸文本到視頻生成模型
- 模型大小:645M
- 模型精度:torch.float16 (FP16)
- 模型分辨率:768x480
- 模型描述:這是一個可用於基於文本提示生成和修改視頻的模型。它是一個非量化視頻自迴歸 (NOVA) 擴散模型,使用了預訓練的文本編碼器 ([Phi - 2](https://huggingface.co/microsoft/phi - 2)) 和一個 VAE 視頻分詞器 ([OpenSoraPlanV1.2 - VAE](https://huggingface.co/LanguageBind/Open - Sora - Plan - v1.2.0))。
- 模型許可證:Apache 2.0 許可證
- 更多信息資源:GitHub 倉庫
📦 安裝指南
使用 🤗 的 Diffusers 庫 可以簡單高效地運行 NOVA。
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/NOVA.git
💻 使用示例
基礎用法
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video
model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")
prompt = "Many spotted jellyfish pulsating under water."
image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")
video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)
高級用法
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video
model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")
prompt = "Many spotted jellyfish pulsating under water."
video = pipe(
prompt,
max_latent_length=9,
num_inference_steps=128,
num_diffusion_steps=100,
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)
📚 詳細文檔
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 生成模型的研究。
- 教育或創意工具中的應用。
- 藝術品的生成以及在設計和其他藝術過程中的使用。
- 探究和理解生成模型的侷限性和偏差。
- 安全部署有可能生成有害內容的模型。
以下是不適用的使用場景。
超出適用範圍的使用
該模型並非用於對人物或事件進行事實性或真實性的呈現,因此使用該模型生成此類內容超出了該模型的能力範圍。
濫用和惡意使用
使用該模型生成對個人殘酷的內容屬於對該模型的濫用。這包括但不限於:
- 錯誤信息和虛假信息。
- 嚴重暴力和血腥場景的呈現。
- 在未經個人同意的情況下冒充他人。
- 在可能看到的人未同意的情況下生成色情內容。
- 違反版權或許可材料使用條款的共享行為。
- 故意推廣或傳播歧視性內容或有害刻板印象。
- 違反版權或許可材料使用條款對其進行修改後的內容共享。
- 生成對人或其環境、文化、宗教等有貶低、非人化或其他有害的呈現。
侷限性和偏差
侷限性
- 模型的自動編碼部分存在信息損失。
- 模型無法渲染複雜的清晰文本。
- 模型無法實現完美的照片級真實感。
- 一般情況下,手指等部位可能無法正確生成。
- 該模型在網絡數據集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 和 [COYO - 700M](https://github.com/kakaobrain/coyo - dataset) 的子集上進行訓練,這些數據集包含成人、暴力和色情內容。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型採用 Apache 2.0 許可證。