🚀 Cosmos-Predict2:一套基于扩散模型的世界基础模型,提供2B和14B版本
Cosmos-Predict2 是一系列高性能的预训练世界基础模型,专为生成具备物理感知的图像、视频和世界状态而设计,可用于物理人工智能的开发。这些基于扩散模型的世界基础模型,能够根据文本、图像或视频输入,生成动态、高质量的图像和视频,是各种世界生成相关应用或研究的基石。该模型在NVIDIA开放模型许可协议下可用于商业用途。
Cosmos | 代码 | 网站
🚀 快速开始
若想了解更多使用细节,请查看 Cosmos-Predict2。
✨ 主要特性
- 高性能预训练:Cosmos-Predict2 是经过精心预训练的世界基础模型,能够生成物理感知的图像、视频和世界状态。
- 多模态输入支持:支持文本 + 图像、文本 + 视频等多种输入类型,为世界生成提供更多可能性。
- 商业可用:在NVIDIA开放模型许可协议下,可用于商业用途。
- 全球部署:支持全球范围内的部署。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image
model_id = "nvidia/Cosmos-Predict2-14B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)
video = pipe(
image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
📚 详细文档
模型概述
描述
Cosmos-Predict2 是一系列高性能的预训练世界基础模型,专为物理人工智能开发而设计,用于生成具备物理感知的图像、视频和世界状态。这些基于扩散模型的世界基础模型,能够根据文本、图像或视频输入,生成动态、高质量的图像和视频,可作为各种世界生成相关应用或研究的基石。
模型开发者:NVIDIA
模型版本
Cosmos-Predict2 基于扩散模型的模型家族包括以下模型:
许可证
该模型在 NVIDIA开放模型许可协议 下发布。如需自定义许可证,请联系 cosmos-license@nvidia.com。
在NVIDIA开放模型许可协议下,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
⚠️ 重要提示
如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制,您在 NVIDIA开放模型许可协议 下的权利将自动终止。
部署范围
全球
模型架构
Cosmos-Predict2-14B-Video2World 是一个用于潜在空间视频去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层组成。交叉注意力层允许模型在去噪过程中以输入文本为条件。在每一层之前,应用自适应层归一化来嵌入去噪的时间信息。当提供图像或视频作为输入时,它们的潜在帧会与生成的帧在时间维度上连接。在条件潜在帧中添加增强噪声,以弥合训练和推理之间的差距。
输入/输出规格
属性 |
详情 |
输入类型 |
文本+图像、文本+视频 |
输入格式 |
文本:字符串;图像:jpg、png、jpeg、webp;视频:mp4 |
输入参数 |
文本:一维(1D);图像:二维(2D);视频:三维(3D) |
输入其他属性 |
输入字符串应少于300个单词,并应提供用于世界生成的描述性内容,如图景描述、关键对象或角色、背景以及在5秒内要描绘的任何特定动作或运动。输入图像分辨率应为1280x704。输入视频分辨率应为1280x704,包含5个输入帧。 |
输出类型 |
视频 |
输出格式 |
mp4 |
输出参数 |
三维(3D) |
输出其他属性 |
默认情况下,生成的视频是一个5秒的剪辑,分辨率为1280x704像素,帧率为16帧/秒(fps)。视频内容将输入文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。 |
我们的人工智能模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),与仅使用CPU的解决方案相比,该模型可实现更快的训练和推理时间。
推理
加速引擎
PyTorch,Transformer Engine
操作系统
Linux(我们未在其他操作系统上进行测试。)
系统要求和性能
该模型需要56.38 GB的GPU显存。以下表格显示了在不同NVIDIA GPU硬件上进行单次生成的推理时间:
GPU硬件 |
推理运行时间 |
NVIDIA GB200 |
85.26秒 |
NVIDIA B200 |
92.59秒 |
NVIDIA RTX PRO 6000工作站版 |
321.9秒 |
NVIDIA DGX Spark |
1902.26秒 |
NVIDIA H200 SXM |
176.19秒 |
NVIDIA H200 NVL |
203.56秒 |
NVIDIA H100 PCIe |
286.46秒 |
NVIDIA H100 NVL |
377.67秒 |
NVIDIA H20 |
852.64秒 |
NVIDIA L40S |
1036.24秒 |
NVIDIA RTX 6000 Ada Generation |
876.68秒 |
质量基准
为了进行比较评估,我们使用 PBench 提供了基准分数:
模型 |
PBench总体得分 |
PBench领域得分 |
PBench质量得分 |
LTX-Video |
74.0 |
77.2 |
70.8 |
HunyuanVideo-I2V |
74.0 |
77.4 |
70.6 |
CogVideoX-5B-I2V |
74.2 |
79.5 |
69.0 |
Wan2.1-I2V-14B-720P |
75.8 |
81.9 |
69.7 |
Cosmos-Predict2-2B-Video2World |
77.2 |
84.8 |
69.6 |
Cosmos-Predict2-14B-Video2World |
77.4 |
84.9 |
69.9 |
局限性
尽管在物理人工智能的世界生成方面有了各种改进,但Cosmos-Predict2 video2world模型在世界预测方面仍然面临技术和应用上的限制。特别是,它们难以生成无伪影的长分辨率视频。常见问题包括时间不一致、相机和物体运动不稳定以及交互不精确。模型可能在生成的视频中不准确地表示3D空间、4D时空或物理定律,导致出现物体消失或变形、不现实的交互和不合理的运动等伪影。因此,将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动力学的应用仍然具有挑战性。
伦理考量
NVIDIA认为可信人工智能是一项共同责任。
🔧 技术细节
文档中关于技术细节的描述已在前面章节详细阐述,此处不再重复。
📄 许可证
该模型在 NVIDIA开放模型许可协议 下发布。如需自定义许可证,请联系 cosmos-license@nvidia.com。
在NVIDIA开放模型许可协议下,NVIDIA确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。
⚠️ 重要提示
如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制,您在 NVIDIA开放模型许可协议 下的权利将自动终止。