模型概述
模型特點
模型能力
使用案例
🚀 Cosmos-Predict2:基於擴散模型的世界基礎模型套件(2B和14B版本)
Cosmos-Predict2是一套高性能的預訓練世界基礎模型,專為物理AI開發而設計,可生成具有物理感知的圖像、視頻和世界狀態,為相關應用和研究提供了強大支持。
🚀 快速開始
模型概述
描述
Cosmos-Predict2 是一系列高性能的預訓練世界基礎模型,專為物理AI開發而設計,用於生成具有物理感知的圖像、視頻和世界狀態。
Cosmos-Predict2擴散模型是基於擴散的世界基礎模型集合,可根據文本、圖像或視頻輸入生成動態、高質量的圖像和視頻。它可以作為各種與世界生成相關的應用或研究的構建塊。這些模型可根據NVIDIA開放模型許可協議進行商業使用。
模型開發者:NVIDIA
模型版本
Cosmos-Predict2基於擴散的模型家族包括以下模型:
- Cosmos-Predict2-2B-Text2Image
- 根據文本描述預測輸出圖像。
- Cosmos-Predict2-14B-Text2Image
- 根據文本描述預測輸出圖像。
- Cosmos-Predict2-2B-Video2World
- 根據文本描述和第一幀圖像預測未來幀。
- Cosmos-Predict2-14B-Video2World
- 根據文本描述和第一幀圖像預測未來幀。
許可證
該模型根據 NVIDIA開放模型許可證 發佈。如需定製許可證,請聯繫 cosmos-license@nvidia.com。
根據NVIDIA開放模型許可證,NVIDIA確認:
- 模型可用於商業用途。
- 您可以自由創建和分發衍生模型。
- NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。
⚠️ 重要提示
如果您繞過、禁用、降低模型中包含的任何技術限制、安全護欄 或相關安全護欄超參數、加密、安全、數字版權管理或認證機制的有效性,您在 NVIDIA開放模型許可協議 下的權利將自動終止。
部署地域
全球
模型架構
Cosmos-Predict2-2B-Video2World是一個用於潛在空間視頻去噪的擴散變壓器模型。該網絡由交錯的自注意力、交叉注意力和前饋層作為構建塊組成。交叉注意力層允許模型在整個去噪過程中以輸入文本為條件。在每一層之前,應用自適應層歸一化來嵌入去噪的時間信息。當提供圖像或視頻作為輸入時,它們的潛在幀會在時間維度上與生成的幀連接起來。在條件潛在幀中添加增強噪聲以彌合訓練和推理之間的差距。
輸入/輸出規格
屬性 | 詳情 |
---|---|
輸入類型 | 文本+圖像、文本+視頻 |
輸入格式 | 文本:字符串;圖像:jpg、png、jpeg、webp;視頻:mp4 |
輸入參數 | 文本:一維;圖像:二維;視頻:三維 |
輸入其他屬性 | 輸入字符串應少於300個單詞,並應提供用於世界生成的描述性內容,如場景描述、關鍵對象或角色、背景以及在5秒內要描繪的任何特定動作或運動。輸入圖像的分辨率應為1280x704。輸入視頻的分辨率應為1280x704,且包含5個輸入幀。 |
輸出類型 | 視頻 |
輸出格式 | mp4 |
輸出參數 | 三維 |
輸出其他屬性 | 默認情況下,生成的視頻是一個5秒的剪輯,分辨率為1280x704像素,幀率為16幀/秒。視頻內容將輸入文本描述可視化為一個簡短的動畫場景,在指定的時間限制內捕捉關鍵元素。 |
我們的AI模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件(如GPU核心)和軟件框架(如CUDA庫),與僅使用CPU的解決方案相比,該模型實現了更快的訓練和推理時間。
軟件集成
運行時引擎:
💻 使用示例
基礎用法
import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image
# 可用的檢查點:nvidia/Cosmos-Predict2-2B-Video2World, nvidia/Cosmos-Predict2-14B-Video2World
model_id = "nvidia/Cosmos-Predict2-2B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)
video = pipe(
image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)
支持的硬件微架構兼容性:
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
⚠️ 重要提示
僅測試了BF16精度。其他精度(如FP16或FP32)未得到官方支持。
推理
加速引擎:PyTorch,Transformer Engine
操作系統:
- Linux(我們未在其他操作系統上進行測試。)
系統要求和性能: 該模型需要32.54 GB的GPU VRAM。 以下表格顯示了在不同NVIDIA GPU硬件上進行單次生成的推理時間:
GPU硬件 | 推理運行時間 |
---|---|
NVIDIA GB200 | 25.61秒 |
NVIDIA B200 | 30.7秒 |
NVIDIA RTX PRO 6000工作站版 | 82.43秒 |
NVIDIA DGX Spark | 344.64秒 |
NVIDIA H200 SXM | 50.2秒 |
NVIDIA H200 NVL | 54.01秒 |
NVIDIA H100 PCIe | 79.87秒 |
NVIDIA H100 NVL | 87.32秒 |
NVIDIA H20 | 179.69秒 |
NVIDIA L40S | 127.49秒 |
NVIDIA RTX 6000 Ada Generation | 180.99秒 |
質量基準: 為了進行比較評估,我們使用 PBench 展示了基準分數。
模型 | PBench總體得分 | PBench領域得分 | PBench質量得分 |
---|---|---|---|
LTX-Video | 74.0 | 77.2 | 70.8 |
HunyuanVideo-I2V | 74.0 | 77.4 | 70.6 |
CogVideoX-5B-I2V | 74.2 | 79.5 | 69.0 |
Wan2.1-I2V-14B-720P | 75.8 | 81.9 | 69.7 |
Cosmos-Predict2-2B-Video2World | 77.2 | 84.8 | 69.6 |
Cosmos-Predict2-14B-Video2World | 77.4 | 84.9 | 69.9 |
使用說明
- 詳情請參閱 Cosmos-Predict2。
侷限性
儘管在物理AI的世界生成方面有了各種改進,但Cosmos-Predict2 video2world模型在世界預測方面仍然面臨技術和應用上的限制。特別是,它們難以生成無偽影的長分辨率高視頻。常見問題包括時間不一致、相機和物體運動不穩定以及交互不精確。這些模型可能在生成的視頻中不準確地表示3D空間、4D時空或物理定律,導致出現物體消失或變形、不現實的交互和不合理的運動等偽影。因此,將這些模型應用於需要模擬基於物理定律的環境或複雜多智能體動態的應用仍然具有挑戰性。
倫理考量
NVIDIA認為可信AI是一項共同責任…… (原文此處未完整,可補充完整內容後再進行處理)
📄 許可證
本模型遵循 NVIDIA開放模型許可證 發佈。以下是該許可證的主要內容:
1. 定義
- NVIDIA Cosmos模型:指根據本協議共享的多模態模型。
- 衍生模型:指對模型的所有修改、基於模型的作品以及模型的任何其他衍生作品。輸出不是衍生模型。
- 法律實體:指行動實體以及所有控制該實體、受該實體控制或與該實體處於共同控制之下的其他實體的聯合體。就本定義而言,“控制”指(a)直接或間接導致該實體的方向或管理的權力,無論是通過合同還是其他方式;(b)擁有百分之五十(50%)或更多的已發行股份;或(c)對該實體的實益所有權。
- 模型:指根據本協議共享的機器學習模型、軟件、檢查點、學習權重、算法、參數、配置文件和文檔。
- 您:指行使本協議授予的權限的個人或法律實體。
2. 使用條件、許可授予、AI倫理和知識產權所有權
- 使用條件:模型和任何衍生模型須遵守本協議第2節和第3節所述的附加條款,並管理您的使用。如果您對任何實體提起版權或專利訴訟(包括訴訟中的交叉索賠或反訴),聲稱模型或衍生模型構成直接或間接的版權或專利侵權,則本協議授予您的該模型或衍生模型的任何許可將自提起該訴訟之日起終止。如果您繞過、禁用、降低模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制的有效性,您在本協議下的權利將自動終止。NVIDIA可隨時更新本協議以遵守法律和監管要求,您同意遵守任何更新後的許可,否則停止複製、使用和分發模型及任何衍生模型。
- 許可授予:此處授予的權利明確以您完全遵守本協議的條款為條件。根據本協議的條款和條件,NVIDIA特此授予您永久的、全球的、非排他的、免費的、免版稅的、可撤銷的(如第2.1節所述)許可,以公開表演、公開展示、複製、使用、創作衍生作品、製造、委託製造、銷售、提供銷售、分發(通過多級分發)和進口模型。
- AI倫理:根據本協議使用模型必須符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上發佈的可信AI條款。
- 知識產權所有權:NVIDIA擁有模型和NVIDIA創建的任何模型衍生作品。在NVIDIA對模型或其模型衍生作品的基礎所有權權利的前提下,您是並將是您的模型衍生作品的所有者。NVIDIA不主張對輸出擁有所有權權利。您負責輸出及其後續使用。除非本協議明確授予,(a)NVIDIA保留與模型相關的所有權利、權益和補救措施;(b)未通過暗示、禁止反言或其他方式向您授予任何其他許可或權利。
3. 再分發
您可以在任何介質中複製和分發模型或其衍生模型的副本,無論是否進行修改,但前提是您滿足以下條件:
- 如果您分發模型,您必須向模型的任何其他接收者提供本協議的副本,並在隨附的“通知”文本文件中包含以下歸屬聲明:“由NVIDIA Corporation根據NVIDIA開放模型許可證授權”。
- 如果您分發或提供NVIDIA Cosmos模型,或包含或使用NVIDIA Cosmos模型的產品或服務(包括AI模型),使用NVIDIA Cosmos模型創建衍生模型,或使用NVIDIA Cosmos模型或其輸出來創建、訓練、微調或以其他方式改進AI模型,您將在相關網站、用戶界面、博客文章、關於頁面或產品文檔中包含“基於NVIDIA Cosmos構建”。
- 您可以在您的修改中添加自己的版權聲明,並可以為您的修改或任何此類衍生模型的整體使用、複製或分發提供額外或不同的許可條款和條件,前提是您對模型的使用、複製和分發否則符合本協議規定的條件。
4. 商標
本協議未授予使用NVIDIA的商號、商標、服務標記或產品名稱的許可,除非在描述模型的來源和複製“通知”文本文件的內容時進行合理和慣常的使用所必需。
5. 保修免責聲明
除非適用法律要求或書面同意,NVIDIA按“現狀”提供模型,不提供任何形式的保證或條件,無論是明示的還是暗示的,包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證或條件。您獨自負責確定使用或再分發模型、衍生模型和輸出的適用性,並承擔與您行使本協議下的權限相關的任何風險。
6. 責任限制
在任何情況下,無論根據何種法律理論,無論是侵權(包括疏忽)、合同還是其他方式,除非適用法律要求(如故意和重大過失行為)或書面同意,NVIDIA均不對您因本協議或使用或無法使用模型、衍生模型或輸出而產生的任何損害負責,包括任何直接、間接、特殊、偶然或後果性的損害(包括但不限於商譽損失、工作停頓、計算機故障或故障或任何和所有其他商業損害或損失),即使NVIDIA已被告知此類損害的可能性。
7. 賠償
您將賠償並使NVIDIA免受任何第三方因您使用或分發模型、模型衍生作品或輸出而產生的或與之相關的任何索賠。
8. 反饋
NVIDIA感謝您的反饋,您同意NVIDIA可以無限制地使用該反饋,且無需向您支付補償。
9. 適用法律
本協議在所有方面均受美國法律和特拉華州法律管轄,不考慮法律衝突原則或《聯合國國際貨物銷售合同公約》。位於加利福尼亞州聖克拉拉縣的州和聯邦法院對因本協議產生的或與之相關的任何爭議或索賠具有專屬管轄權,雙方不可撤銷地同意這些法院的個人管轄權和審判地;但任何一方均可在任何司法管轄區申請禁令救濟或同等類型的緊急法律救濟。
10. 貿易和合規
您同意遵守所有適用的出口、進口、貿易和經濟制裁法律和法規,包括但不限於美國出口管理條例和外國資產控制辦公室條例。這些法律包括對目的地、最終用戶和最終用途的限制。



