Cosmos-Predict2-14B-Video2World開源模型 - 生成物理感知內容，助力物理AI開發

首頁

Cosmos Predict2 14B Video2World

由nvidia開發

Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型，專為生成具備物理感知的圖像、視頻和世界狀態而設計，可用於物理人工智能的開發。

文本生成視頻開源協議:其他 #物理感知生成 #多模態視頻預測 #高分辨率視頻合成

下載量 232

發布時間 : 4/25/2025

模型概述

基於擴散模型的世界基礎模型，能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，是各種世界生成相關應用或研究的基石。

模型特點

高性能預訓練

經過精心預訓練的世界基礎模型，能夠生成物理感知的圖像、視頻和世界狀態。

多模態輸入支持

支持文本 + 圖像、文本 + 視頻等多種輸入類型，為世界生成提供更多可能性。

商業可用

在NVIDIA開放模型許可協議下，可用於商業用途。

全球部署

支持全球範圍內的部署。

模型能力

文本到圖像生成

視頻到世界狀態預測

多模態輸入處理

高質量視頻生成

使用案例

物理人工智能

動態場景生成

根據文本描述生成動態、高質量的圖像和視頻，模擬物理世界中的場景。

生成的視頻能夠捕捉關鍵元素，並在指定的時間限制內完成動畫場景。

世界狀態預測

根據輸入的第一幀圖像和文本描述，預測未來的世界狀態。

生成的視頻幀能夠模擬物理定律和交互。

創意內容生成

動畫製作

利用文本和圖像輸入生成動畫片段。

生成5秒的動畫剪輯，分辨率為1280x704像素，幀率為16幀/秒。

🚀 Cosmos-Predict2：一套基於擴散模型的世界基礎模型，提供2B和14B版本

Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型，專為生成具備物理感知的圖像、視頻和世界狀態而設計，可用於物理人工智能的開發。這些基於擴散模型的世界基礎模型，能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，是各種世界生成相關應用或研究的基石。該模型在NVIDIA開放模型許可協議下可用於商業用途。

Cosmos | 代碼 | 網站

🚀 快速開始

若想了解更多使用細節，請查看 Cosmos-Predict2。

✨ 主要特性

高性能預訓練：Cosmos-Predict2 是經過精心預訓練的世界基礎模型，能夠生成物理感知的圖像、視頻和世界狀態。
多模態輸入支持：支持文本 + 圖像、文本 + 視頻等多種輸入類型，為世界生成提供更多可能性。
商業可用：在NVIDIA開放模型許可協議下，可用於商業用途。
全球部署：支持全球範圍內的部署。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image

# 可用的檢查點：nvidia/Cosmos-Predict2-2B-Video2World, nvidia/Cosmos-Predict2-14B-Video2World
model_id = "nvidia/Cosmos-Predict2-14B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)

video = pipe(
    image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)

📚 詳細文檔

模型概述

描述

Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型，專為物理人工智能開發而設計，用於生成具備物理感知的圖像、視頻和世界狀態。這些基於擴散模型的世界基礎模型，能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，可作為各種世界生成相關應用或研究的基石。

模型開發者：NVIDIA

模型版本

Cosmos-Predict2 基於擴散模型的模型家族包括以下模型：

Cosmos-Predict2-2B-Text2Image
- 根據文本描述，預測輸出圖像。
Cosmos-Predict2-14B-Text2Image
- 根據文本描述，預測輸出圖像。
Cosmos-Predict2-2B-Video2World
- 根據文本描述和第一幀圖像，預測未來幀。
Cosmos-Predict2-14B-Video2World
- 根據文本描述和第一幀圖像，預測未來幀。

許可證

該模型在 NVIDIA開放模型許可協議下發布。如需自定義許可證，請聯繫 cosmos-license@nvidia.com。

在NVIDIA開放模型許可協議下，NVIDIA確認：

模型可用於商業用途。
您可以自由創建和分發衍生模型。
NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。

⚠️ 重要提示

如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制，您在 NVIDIA開放模型許可協議下的權利將自動終止。

部署範圍

全球

模型架構

Cosmos-Predict2-14B-Video2World 是一個用於潛在空間視頻去噪的擴散變壓器模型。該網絡由交錯的自注意力、交叉注意力和前饋層組成。交叉注意力層允許模型在去噪過程中以輸入文本為條件。在每一層之前，應用自適應層歸一化來嵌入去噪的時間信息。當提供圖像或視頻作為輸入時，它們的潛在幀會與生成的幀在時間維度上連接。在條件潛在幀中添加增強噪聲，以彌合訓練和推理之間的差距。

輸入/輸出規格

屬性	詳情
輸入類型	文本+圖像、文本+視頻
輸入格式	文本：字符串；圖像：jpg、png、jpeg、webp；視頻：mp4
輸入參數	文本：一維（1D）；圖像：二維（2D）；視頻：三維（3D）
輸入其他屬性	輸入字符串應少於300個單詞，並應提供用於世界生成的描述性內容，如圖景描述、關鍵對象或角色、背景以及在5秒內要描繪的任何特定動作或運動。輸入圖像分辨率應為1280x704。輸入視頻分辨率應為1280x704，包含5個輸入幀。
輸出類型	視頻
輸出格式	mp4
輸出參數	三維（3D）
輸出其他屬性	默認情況下，生成的視頻是一個5秒的剪輯，分辨率為1280x704像素，幀率為16幀/秒（fps）。視頻內容將輸入文本描述可視化為一個簡短的動畫場景，在指定的時間限制內捕捉關鍵元素。

我們的人工智能模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件（如GPU核心）和軟件框架（如CUDA庫），與僅使用CPU的解決方案相比，該模型可實現更快的訓練和推理時間。

推理

加速引擎

PyTorch，Transformer Engine

操作系統

Linux（我們未在其他操作系統上進行測試。）

系統要求和性能

該模型需要56.38 GB的GPU顯存。以下表格顯示了在不同NVIDIA GPU硬件上進行單次生成的推理時間：

GPU硬件	推理運行時間
NVIDIA GB200	85.26秒
NVIDIA B200	92.59秒
NVIDIA RTX PRO 6000工作站版	321.9秒
NVIDIA DGX Spark	1902.26秒
NVIDIA H200 SXM	176.19秒
NVIDIA H200 NVL	203.56秒
NVIDIA H100 PCIe	286.46秒
NVIDIA H100 NVL	377.67秒
NVIDIA H20	852.64秒
NVIDIA L40S	1036.24秒
NVIDIA RTX 6000 Ada Generation	876.68秒

質量基準

為了進行比較評估，我們使用 PBench 提供了基準分數：

模型	PBench總體得分	PBench領域得分	PBench質量得分
LTX-Video	74.0	77.2	70.8
HunyuanVideo-I2V	74.0	77.4	70.6
CogVideoX-5B-I2V	74.2	79.5	69.0
Wan2.1-I2V-14B-720P	75.8	81.9	69.7
Cosmos-Predict2-2B-Video2World	77.2	84.8	69.6
Cosmos-Predict2-14B-Video2World	77.4	84.9	69.9

侷限性

儘管在物理人工智能的世界生成方面有了各種改進，但Cosmos-Predict2 video2world模型在世界預測方面仍然面臨技術和應用上的限制。特別是，它們難以生成無偽影的長分辨率視頻。常見問題包括時間不一致、相機和物體運動不穩定以及交互不精確。模型可能在生成的視頻中不準確地表示3D空間、4D時空或物理定律，導致出現物體消失或變形、不現實的交互和不合理的運動等偽影。因此，將這些模型應用於需要模擬基於物理定律的環境或複雜多智能體動力學的應用仍然具有挑戰性。