🚀 NOVA (d48w1024-osp480) 模型卡片
NOVA (d48w1024-osp480) 是一个可基于文本提示生成和修改视频的模型,在视频生成领域具有重要价值。
✨ 主要特性
- 研发团队:BAAI
- 模型类型:非量化自回归文本到视频生成模型
- 模型大小:645M
- 模型精度:torch.float16 (FP16)
- 模型分辨率:768x480
- 模型描述:这是一个可用于基于文本提示生成和修改视频的模型。它是一个非量化视频自回归 (NOVA) 扩散模型,使用了预训练的文本编码器 ([Phi - 2](https://huggingface.co/microsoft/phi - 2)) 和一个 VAE 视频分词器 ([OpenSoraPlanV1.2 - VAE](https://huggingface.co/LanguageBind/Open - Sora - Plan - v1.2.0))。
- 模型许可证:Apache 2.0 许可证
- 更多信息资源:GitHub 仓库
📦 安装指南
使用 🤗 的 Diffusers 库 可以简单高效地运行 NOVA。
pip install diffusers transformers accelerate imageio[ffmpeg]
pip install git+ssh://git@github.com/baaivision/NOVA.git
💻 使用示例
基础用法
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video
model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")
prompt = "Many spotted jellyfish pulsating under water."
image = pipe(prompt, max_latent_length=1).frames[0, 0]
export_to_image(image, "jellyfish.jpg")
video = pipe(prompt, max_latent_length=9).frames[0]
export_to_video(video, "jellyfish.mp4", fps=12)
高级用法
import torch
from diffnext.pipelines import NOVAPipeline
from diffnext.utils import export_to_image, export_to_video
model_id = "BAAI/nova-d48w1024-osp480"
model_args = {"torch_dtype": torch.float16, "trust_remote_code": True}
pipe = NOVAPipeline.from_pretrained(model_id, **model_args)
pipe = pipe.to("cuda")
prompt = "Many spotted jellyfish pulsating under water."
video = pipe(
prompt,
max_latent_length=9,
num_inference_steps=128,
num_diffusion_steps=100,
).frames[0]
export_to_video(video, "jellyfish_v2.mp4", fps=12)
📚 详细文档
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 生成模型的研究。
- 教育或创意工具中的应用。
- 艺术品的生成以及在设计和其他艺术过程中的使用。
- 探究和理解生成模型的局限性和偏差。
- 安全部署有可能生成有害内容的模型。
以下是不适用的使用场景。
超出适用范围的使用
该模型并非用于对人物或事件进行事实性或真实性的呈现,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用
使用该模型生成对个人残酷的内容属于对该模型的滥用。这包括但不限于:
- 错误信息和虚假信息。
- 严重暴力和血腥场景的呈现。
- 在未经个人同意的情况下冒充他人。
- 在可能看到的人未同意的情况下生成色情内容。
- 违反版权或许可材料使用条款的共享行为。
- 故意推广或传播歧视性内容或有害刻板印象。
- 违反版权或许可材料使用条款对其进行修改后的内容共享。
- 生成对人或其环境、文化、宗教等有贬低、非人化或其他有害的呈现。
局限性和偏差
局限性
- 模型的自动编码部分存在信息损失。
- 模型无法渲染复杂的清晰文本。
- 模型无法实现完美的照片级真实感。
- 一般情况下,手指等部位可能无法正确生成。
- 该模型在网络数据集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 和 [COYO - 700M](https://github.com/kakaobrain/coyo - dataset) 的子集上进行训练,这些数据集包含成人、暴力和色情内容。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
📄 许可证
本模型采用 Apache 2.0 许可证。