🚀 Cosmos-Predict2:一套基於擴散模型的世界基礎模型,提供2B和14B版本
Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型,專為生成具備物理感知的圖像、視頻和世界狀態而設計,可用於物理人工智能的開發。這些基於擴散模型的世界基礎模型,能夠根據文本、圖像或視頻輸入,生成動態、高質量的圖像和視頻,是各種世界生成相關應用或研究的基石。該模型在NVIDIA開放模型許可協議下可用於商業用途。
Cosmos | 代碼 | 網站
🚀 快速開始
若想了解更多使用細節,請查看 Cosmos-Predict2。
✨ 主要特性
- 高性能預訓練:Cosmos-Predict2 是經過精心預訓練的世界基礎模型,能夠生成物理感知的圖像、視頻和世界狀態。
- 多模態輸入支持:支持文本 + 圖像、文本 + 視頻等多種輸入類型,為世界生成提供更多可能性。
- 商業可用:在NVIDIA開放模型許可協議下,可用於商業用途。
- 全球部署:支持全球範圍內的部署。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image
model_id = "nvidia/Cosmos-Predict2-14B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)
video = pipe(
image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
📚 詳細文檔
模型概述
描述
Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型,專為物理人工智能開發而設計,用於生成具備物理感知的圖像、視頻和世界狀態。這些基於擴散模型的世界基礎模型,能夠根據文本、圖像或視頻輸入,生成動態、高質量的圖像和視頻,可作為各種世界生成相關應用或研究的基石。
模型開發者:NVIDIA
模型版本
Cosmos-Predict2 基於擴散模型的模型家族包括以下模型:
許可證
該模型在 NVIDIA開放模型許可協議 下發布。如需自定義許可證,請聯繫 cosmos-license@nvidia.com。
在NVIDIA開放模型許可協議下,NVIDIA確認:
- 模型可用於商業用途。
- 您可以自由創建和分發衍生模型。
- NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。
⚠️ 重要提示
如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制,您在 NVIDIA開放模型許可協議 下的權利將自動終止。
部署範圍
全球
模型架構
Cosmos-Predict2-14B-Video2World 是一個用於潛在空間視頻去噪的擴散變壓器模型。該網絡由交錯的自注意力、交叉注意力和前饋層組成。交叉注意力層允許模型在去噪過程中以輸入文本為條件。在每一層之前,應用自適應層歸一化來嵌入去噪的時間信息。當提供圖像或視頻作為輸入時,它們的潛在幀會與生成的幀在時間維度上連接。在條件潛在幀中添加增強噪聲,以彌合訓練和推理之間的差距。
輸入/輸出規格
屬性 |
詳情 |
輸入類型 |
文本+圖像、文本+視頻 |
輸入格式 |
文本:字符串;圖像:jpg、png、jpeg、webp;視頻:mp4 |
輸入參數 |
文本:一維(1D);圖像:二維(2D);視頻:三維(3D) |
輸入其他屬性 |
輸入字符串應少於300個單詞,並應提供用於世界生成的描述性內容,如圖景描述、關鍵對象或角色、背景以及在5秒內要描繪的任何特定動作或運動。輸入圖像分辨率應為1280x704。輸入視頻分辨率應為1280x704,包含5個輸入幀。 |
輸出類型 |
視頻 |
輸出格式 |
mp4 |
輸出參數 |
三維(3D) |
輸出其他屬性 |
默認情況下,生成的視頻是一個5秒的剪輯,分辨率為1280x704像素,幀率為16幀/秒(fps)。視頻內容將輸入文本描述可視化為一個簡短的動畫場景,在指定的時間限制內捕捉關鍵元素。 |
我們的人工智能模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件(如GPU核心)和軟件框架(如CUDA庫),與僅使用CPU的解決方案相比,該模型可實現更快的訓練和推理時間。
推理
加速引擎
PyTorch,Transformer Engine
操作系統
Linux(我們未在其他操作系統上進行測試。)
系統要求和性能
該模型需要56.38 GB的GPU顯存。以下表格顯示了在不同NVIDIA GPU硬件上進行單次生成的推理時間:
GPU硬件 |
推理運行時間 |
NVIDIA GB200 |
85.26秒 |
NVIDIA B200 |
92.59秒 |
NVIDIA RTX PRO 6000工作站版 |
321.9秒 |
NVIDIA DGX Spark |
1902.26秒 |
NVIDIA H200 SXM |
176.19秒 |
NVIDIA H200 NVL |
203.56秒 |
NVIDIA H100 PCIe |
286.46秒 |
NVIDIA H100 NVL |
377.67秒 |
NVIDIA H20 |
852.64秒 |
NVIDIA L40S |
1036.24秒 |
NVIDIA RTX 6000 Ada Generation |
876.68秒 |
質量基準
為了進行比較評估,我們使用 PBench 提供了基準分數:
模型 |
PBench總體得分 |
PBench領域得分 |
PBench質量得分 |
LTX-Video |
74.0 |
77.2 |
70.8 |
HunyuanVideo-I2V |
74.0 |
77.4 |
70.6 |
CogVideoX-5B-I2V |
74.2 |
79.5 |
69.0 |
Wan2.1-I2V-14B-720P |
75.8 |
81.9 |
69.7 |
Cosmos-Predict2-2B-Video2World |
77.2 |
84.8 |
69.6 |
Cosmos-Predict2-14B-Video2World |
77.4 |
84.9 |
69.9 |
侷限性
儘管在物理人工智能的世界生成方面有了各種改進,但Cosmos-Predict2 video2world模型在世界預測方面仍然面臨技術和應用上的限制。特別是,它們難以生成無偽影的長分辨率視頻。常見問題包括時間不一致、相機和物體運動不穩定以及交互不精確。模型可能在生成的視頻中不準確地表示3D空間、4D時空或物理定律,導致出現物體消失或變形、不現實的交互和不合理的運動等偽影。因此,將這些模型應用於需要模擬基於物理定律的環境或複雜多智能體動力學的應用仍然具有挑戰性。
倫理考量
NVIDIA認為可信人工智能是一項共同責任。
🔧 技術細節
文檔中關於技術細節的描述已在前面章節詳細闡述,此處不再重複。
📄 許可證
該模型在 NVIDIA開放模型許可協議 下發布。如需自定義許可證,請聯繫 cosmos-license@nvidia.com。
在NVIDIA開放模型許可協議下,NVIDIA確認:
- 模型可用於商業用途。
- 您可以自由創建和分發衍生模型。
- NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。
⚠️ 重要提示
如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制,您在 NVIDIA開放模型許可協議 下的權利將自動終止。