Cosmos-Predict2-14B-Video2World开源模型 - 生成物理感知内容，助力物理AI开发

首页

Cosmos Predict2 14B Video2World

由 nvidia 开发

Cosmos-Predict2 是一系列高性能的预训练世界基础模型，专为生成具备物理感知的图像、视频和世界状态而设计，可用于物理人工智能的开发。

文本生成视频开源协议:其他 #物理感知生成 #多模态视频预测 #高分辨率视频合成

下载量 232

发布时间 : 4/25/2025

模型简介

基于扩散模型的世界基础模型，能够根据文本、图像或视频输入，生成动态、高质量的图像和视频，是各种世界生成相关应用或研究的基石。

模型特点

高性能预训练

经过精心预训练的世界基础模型，能够生成物理感知的图像、视频和世界状态。

多模态输入支持

支持文本 + 图像、文本 + 视频等多种输入类型，为世界生成提供更多可能性。

商业可用

在NVIDIA开放模型许可协议下，可用于商业用途。

全球部署

支持全球范围内的部署。

模型能力

文本到图像生成

视频到世界状态预测

多模态输入处理

高质量视频生成

使用案例

物理人工智能

动态场景生成

根据文本描述生成动态、高质量的图像和视频，模拟物理世界中的场景。

生成的视频能够捕捉关键元素，并在指定的时间限制内完成动画场景。

世界状态预测

根据输入的第一帧图像和文本描述，预测未来的世界状态。

生成的视频帧能够模拟物理定律和交互。

创意内容生成

动画制作

利用文本和图像输入生成动画片段。

生成5秒的动画剪辑，分辨率为1280x704像素，帧率为16帧/秒。

🚀 Cosmos-Predict2：一套基于扩散模型的世界基础模型，提供2B和14B版本

Cosmos-Predict2 是一系列高性能的预训练世界基础模型，专为生成具备物理感知的图像、视频和世界状态而设计，可用于物理人工智能的开发。这些基于扩散模型的世界基础模型，能够根据文本、图像或视频输入，生成动态、高质量的图像和视频，是各种世界生成相关应用或研究的基石。该模型在NVIDIA开放模型许可协议下可用于商业用途。

Cosmos | 代码 | 网站

🚀 快速开始

若想了解更多使用细节，请查看 Cosmos-Predict2。

✨ 主要特性

高性能预训练：Cosmos-Predict2 是经过精心预训练的世界基础模型，能够生成物理感知的图像、视频和世界状态。
多模态输入支持：支持文本 + 图像、文本 + 视频等多种输入类型，为世界生成提供更多可能性。
商业可用：在NVIDIA开放模型许可协议下，可用于商业用途。
全球部署：支持全球范围内的部署。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image

# 可用的检查点：nvidia/Cosmos-Predict2-2B-Video2World, nvidia/Cosmos-Predict2-14B-Video2World
model_id = "nvidia/Cosmos-Predict2-14B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)

video = pipe(
    image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)

📚 详细文档

模型概述

描述

Cosmos-Predict2 是一系列高性能的预训练世界基础模型，专为物理人工智能开发而设计，用于生成具备物理感知的图像、视频和世界状态。这些基于扩散模型的世界基础模型，能够根据文本、图像或视频输入，生成动态、高质量的图像和视频，可作为各种世界生成相关应用或研究的基石。

模型开发者：NVIDIA

模型版本

Cosmos-Predict2 基于扩散模型的模型家族包括以下模型：

Cosmos-Predict2-2B-Text2Image
- 根据文本描述，预测输出图像。
Cosmos-Predict2-14B-Text2Image
- 根据文本描述，预测输出图像。
Cosmos-Predict2-2B-Video2World
- 根据文本描述和第一帧图像，预测未来帧。
Cosmos-Predict2-14B-Video2World
- 根据文本描述和第一帧图像，预测未来帧。

许可证

该模型在 NVIDIA开放模型许可协议下发布。如需自定义许可证，请联系 cosmos-license@nvidia.com。

在NVIDIA开放模型许可协议下，NVIDIA确认：

模型可用于商业用途。
您可以自由创建和分发衍生模型。
NVIDIA不主张对使用模型或衍生模型生成的任何输出拥有所有权。

⚠️ 重要提示

如果您绕过、禁用、降低效果或规避模型中包含的任何技术限制、安全护栏或相关安全护栏超参数、加密、安全、数字版权管理或认证机制，您在 NVIDIA开放模型许可协议下的权利将自动终止。

部署范围

全球

模型架构

Cosmos-Predict2-14B-Video2World 是一个用于潜在空间视频去噪的扩散变压器模型。该网络由交错的自注意力、交叉注意力和前馈层组成。交叉注意力层允许模型在去噪过程中以输入文本为条件。在每一层之前，应用自适应层归一化来嵌入去噪的时间信息。当提供图像或视频作为输入时，它们的潜在帧会与生成的帧在时间维度上连接。在条件潜在帧中添加增强噪声，以弥合训练和推理之间的差距。

输入/输出规格

属性	详情
输入类型	文本+图像、文本+视频
输入格式	文本：字符串；图像：jpg、png、jpeg、webp；视频：mp4
输入参数	文本：一维（1D）；图像：二维（2D）；视频：三维（3D）
输入其他属性	输入字符串应少于300个单词，并应提供用于世界生成的描述性内容，如图景描述、关键对象或角色、背景以及在5秒内要描绘的任何特定动作或运动。输入图像分辨率应为1280x704。输入视频分辨率应为1280x704，包含5个输入帧。
输出类型	视频
输出格式	mp4
输出参数	三维（3D）
输出其他属性	默认情况下，生成的视频是一个5秒的剪辑，分辨率为1280x704像素，帧率为16帧/秒（fps）。视频内容将输入文本描述可视化为一个简短的动画场景，在指定的时间限制内捕捉关键元素。

我们的人工智能模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），与仅使用CPU的解决方案相比，该模型可实现更快的训练和推理时间。

推理

加速引擎

PyTorch，Transformer Engine

操作系统

Linux（我们未在其他操作系统上进行测试。）

系统要求和性能

该模型需要56.38 GB的GPU显存。以下表格显示了在不同NVIDIA GPU硬件上进行单次生成的推理时间：

GPU硬件	推理运行时间
NVIDIA GB200	85.26秒
NVIDIA B200	92.59秒
NVIDIA RTX PRO 6000工作站版	321.9秒
NVIDIA DGX Spark	1902.26秒
NVIDIA H200 SXM	176.19秒
NVIDIA H200 NVL	203.56秒
NVIDIA H100 PCIe	286.46秒
NVIDIA H100 NVL	377.67秒
NVIDIA H20	852.64秒
NVIDIA L40S	1036.24秒
NVIDIA RTX 6000 Ada Generation	876.68秒

质量基准

为了进行比较评估，我们使用 PBench 提供了基准分数：

模型	PBench总体得分	PBench领域得分	PBench质量得分
LTX-Video	74.0	77.2	70.8
HunyuanVideo-I2V	74.0	77.4	70.6
CogVideoX-5B-I2V	74.2	79.5	69.0
Wan2.1-I2V-14B-720P	75.8	81.9	69.7
Cosmos-Predict2-2B-Video2World	77.2	84.8	69.6
Cosmos-Predict2-14B-Video2World	77.4	84.9	69.9

局限性

尽管在物理人工智能的世界生成方面有了各种改进，但Cosmos-Predict2 video2world模型在世界预测方面仍然面临技术和应用上的限制。特别是，它们难以生成无伪影的长分辨率视频。常见问题包括时间不一致、相机和物体运动不稳定以及交互不精确。模型可能在生成的视频中不准确地表示3D空间、4D时空或物理定律，导致出现物体消失或变形、不现实的交互和不合理的运动等伪影。因此，将这些模型应用于需要模拟基于物理定律的环境或复杂多智能体动力学的应用仍然具有挑战性。