Cosmos-Predict2-14B-Text2Image開源模型 - 生成物理感知圖像、視頻及世界狀態

首頁

Cosmos Predict2 14B Text2Image

由nvidia開發

Cosmos-Predict2是一系列高性能的預訓練世界基礎模型，專為物理AI開發生成具備物理感知的圖像、視頻和世界狀態而設計。

文本生成圖像開源協議:其他 #物理感知生成 #多模態擴散模型 #高分辨率視頻預測

下載量 312

發布時間 : 4/22/2025

模型概述

基於擴散的世界基礎模型，能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，可作為各種世界生成相關應用或研究的構建模塊。

模型特點

物理感知生成

專為物理AI設計，生成具備物理感知的圖像和視頻，能模擬真實世界中的物理交互。

高質量輸出

生成動態、高質量的圖像和視頻，默認分辨率為1280x704像素。

多模態輸入支持

支持文本、圖像或視頻作為輸入條件，靈活適應不同應用場景。

商業用途許可

在NVIDIA開放模型許可證下可用於商業用途，並可自由創建和分發衍生模型。

模型能力

文本到圖像生成

視頻預測

物理場景模擬

多模態理解

使用案例

創意內容生成

廣告創意生成

根據產品描述自動生成高質量的廣告圖像。

生成符合物理規律的產品展示圖像

遊戲開發

遊戲場景生成

根據文本描述生成遊戲中的物理場景。

生成具有物理交互能力的遊戲環境

影視預製作

分鏡生成

根據劇本描述生成影視分鏡畫面。

生成具有動態效果的分鏡圖像

🚀 Cosmos-Predict2：一套基於擴散模型的世界基礎模型，提供2B和14B版本

Cosmos-Predict2是一系列高性能的預訓練世界基礎模型，專為物理AI開發生成具備物理感知的圖像、視頻和世界狀態而設計。它能根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，可作為各種世界生成相關應用或研究的基石。

Cosmos | 代碼 | 官網

🚀 快速開始

模型概述

描述

Cosmos-Predict2：這是一系列高性能的預訓練世界基礎模型，專為物理AI開發生成具備物理感知的圖像、視頻和世界狀態而設計。

Cosmos-Predict2擴散模型是一組基於擴散的世界基礎模型，能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻。它可以作為各種世界生成相關應用或研究的構建模塊。這些模型在NVIDIA開放模型許可協議下可用於商業用途。

模型開發者：NVIDIA

模型版本

Cosmos-Predict2基於擴散的模型家族包括以下模型：

Cosmos-Predict2-2B-Text2Image
- 根據文本描述，預測輸出圖像。
Cosmos-Predict2-14B-Text2Image
- 根據文本描述，預測輸出圖像。
Cosmos-Predict2-2B-Video2World
- 根據文本描述和作為第一幀的圖像，預測未來幀。
Cosmos-Predict2-14B-Video2World
- 根據文本描述和作為第一幀的圖像，預測未來幀。

許可證

該模型根據 NVIDIA開放模型許可證發佈。如需定製許可證，請聯繫 cosmos-license@nvidia.com。

在NVIDIA開放模型許可證下，NVIDIA確認：

模型可用於商業用途。
您可以自由創建和分發衍生模型。
NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。

⚠️ 重要提示

如果您繞過、禁用、降低模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制的有效性，您在 NVIDIA開放模型許可協議下的權利將自動終止。

部署地域

全球

模型架構

Cosmos-Predict2-14B-Text2Image是一個用於在潛在空間進行圖像去噪的擴散變壓器模型。該網絡由交錯的自注意力、交叉注意力和前饋層作為構建塊組成。交叉注意力層允許模型在整個去噪過程中以輸入文本為條件。在每一層之前，應用自適應層歸一化來嵌入去噪的時間信息。

輸入/輸出規格

屬性	詳情
輸入類型	文本
輸入格式	字符串
輸入參數	一維（1D）
輸入相關其他屬性	輸入字符串應包含少於300個單詞，並應提供用於世界生成的描述性內容，例如場景描述、關鍵對象或角色、背景以及要在5秒內描繪的任何特定動作或運動。
輸出類型	圖像
輸出格式	jpg
輸出參數	二維（2D）
輸出相關其他屬性	默認情況下，生成的圖像分辨率為1280x704像素，RGB顏色。圖像內容可視化輸入文本描述，在指定的時間限制內捕捉關鍵元素。

我們的AI模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件（例如GPU核心）和軟件框架（例如CUDA庫），與僅使用CPU的解決方案相比，該模型實現了更快的訓練和推理時間。

軟件集成

運行時引擎：

import torch
from diffusers import Cosmos2TextToImagePipeline

# 可用的檢查點：nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

支持的硬件微架構兼容性：

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper

⚠️ 重要提示

僅測試了BF16精度。其他精度（如FP16或FP32）未得到官方支持。

推理

加速引擎：PyTorch，Transformer Engine

操作系統：

Linux（我們未在其他操作系統上進行測試。）

系統要求和性能：該模型需要48.93 GB的GPU VRAM。以下表格顯示了在不同NVIDIA GPU硬件上單次生成的推理時間：

GPU硬件	推理運行時間
NVIDIA GB200	8.5秒
NVIDIA B200	8.68秒
NVIDIA RTX PRO 6000工作站版	24.16秒
NVIDIA DGX Spark	138.94秒
NVIDIA H200 SXM	15.96秒
NVIDIA H200 NVL	16.95秒
NVIDIA H100 PCIe	23.83秒
NVIDIA H100 NVL	23.97秒
NVIDIA H20	59.59秒
NVIDIA L40S	（內存不足）
NVIDIA RTX 6000 Ada Generation	167.86秒

質量基準：為了進行比較評估，我們提供了來自 GenEval 評估框架的基準分數。

方法	總體	單個對象	兩個對象	計數	顏色	位置	顏色屬性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

💻 使用示例

基礎用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# 可用的檢查點：nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

詳細文檔

詳情請參閱 Cosmos-Predict2。

侷限性

儘管Cosmos-Predict2文本到圖像模型在物理AI的世界生成方面有了各種改進，但在世界預測方面仍面臨技術和應用上的限制。特別是，它們難以生成無偽影的高分辨率圖像。常見問題包括相機和對象運動不穩定，以及交互不精確。這些模型可能在生成的圖像中不準確地表示3D空間或物理定律，導致出現不真實的交互和不合理的運動等偽影。因此，將這些模型應用於需要模擬基於物理定律的環境或複雜多智能體動力學的應用仍然具有挑戰性。

倫理考量

NVIDIA認為可信AI是一項共同責任，我們已經制定了政策和實踐，以支持各種AI應用的開發。當開發者按照我們的服務條款下載或使用該模型時，應與內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決產品意外濫用的問題。

用戶對模型的輸入和輸出負責。用戶在部署前有責任確保該模型的安全集成，包括實施護欄以及其他安全機制。

有關該模型倫理考量的更多詳細信息，請參閱以下可解釋性、偏差、安全與保障以及隱私的子卡片。

📄 許可證

本模型遵循 NVIDIA開放模型許可證發佈。完整的許可協議內容如下：

NVIDIA開放模型許可協議

版本發佈日期：2025年4月30日

本NVIDIA開放模型許可協議（以下簡稱“協議”）是您所代表的法律實體（若未指明實體，則指您本人）與NVIDIA Corporation及其附屬公司（以下簡稱“NVIDIA”）之間的法律協議，規範您在本協議下使用NVIDIA向您提供的模型的行為。NVIDIA和您各自為“一方”，合稱為“雙方”。

根據本協議發佈的NVIDIA模型旨在被允許使用，並促進人工智能技術的進一步發展。在遵守本協議條款的前提下，NVIDIA確認：

模型可用於商業用途。
您可以自由創建和分發衍生模型。
NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。

通過使用、複製、修改、分發、執行或展示模型或衍生模型的任何部分或元素，或以其他方式接受本協議的條款，您同意受本協議的約束。

1. 定義

以下定義適用於本協議： 1.1. “NVIDIA Cosmos模型”指根據本協議共享的多模態模型。 1.2. “衍生模型”指所有（a）對模型的修改，（b）基於模型的作品，以及（c）模型的任何其他衍生作品。輸出不屬於衍生模型。 1.3. “法律實體”指行動實體以及所有對該實體具有控制權、受該實體控制或與該實體處於共同控制之下的其他實體的聯合體。就本定義而言，“控制”指（a）直接或間接導致該實體的經營方向或管理的權力，無論是通過合同還是其他方式；（b）擁有該實體已發行股份的百分之五十（50%）或以上；或（c）對該實體的實益所有權。 1.4. “模型”指根據本協議共享的機器學習模型、軟件、檢查點、學習到的權重、算法、參數、配置文件和文檔。 1.5. “您”或“您的”指行使本協議授予的權限的個人或法律實體。

2. 使用條件、許可授予、人工智能倫理和知識產權所有權

2.1. 使用條件。模型和任何衍生模型受本協議第2節和第3節所述的附加條款約束，並規範您的使用行為。如果您對任何實體提起版權或專利訴訟（包括在訴訟中的交叉索賠或反訴），聲稱模型或衍生模型構成直接或間接的版權或專利侵權，則本協議授予您的關於該模型或衍生模型的任何許可將自提起該訴訟之日起終止。如果您繞過、禁用、降低模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制的有效性，您在本協議下的權利將自動終止。NVIDIA可隨時更新本協議以遵守法律和監管要求，您同意遵守任何更新後的許可，否則停止複製、使用和分發模型及任何衍生模型。 2.2. 許可授予。本協議授予的權利明確以您完全遵守本協議的條款為條件。在遵守本協議的條款和條件的前提下，NVIDIA特此授予您永久的、全球範圍的、非排他的、免費的、免版稅的、可撤銷的（如第2.1節所述）許可，允許您公開執行、公開展示、複製、使用、創作衍生作品、製造、委託製造、銷售、要約銷售、分發（通過多級分發）和進口模型。 2.3. 人工智能倫理。在本協議下使用模型必須符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上規定的可信人工智能條款。 2.4. NVIDIA擁有模型以及NVIDIA創建的任何模型衍生作品的所有權。在NVIDIA對模型或其模型衍生作品的底層所有權權利的前提下，您是並將繼續是您的模型衍生作品的所有者。NVIDIA不主張對輸出擁有所有權。您對輸出及其後續使用負責。除非本協議明確授予，（a）NVIDIA保留與模型相關的所有權利、權益和救濟措施，（b）不會通過暗示、禁止反言或其他方式向您授予任何其他許可或權利。

3. 再分發

您可以在任何介質中複製和分發模型或其衍生模型的副本，無論是否進行修改，但需滿足以下條件： 3.1. 如果您分發模型，您必須向模型的任何其他接收方提供本協議的副本，並在隨副本提供的“通知”文本文件中包含以下歸屬聲明：“由NVIDIA Corporation根據NVIDIA開放模型許可證授權”； 3.2. 如果您分發或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的產品或服務（包括人工智能模型），使用NVIDIA Cosmos模型創建衍生模型，或使用NVIDIA Cosmos模型或其輸出來創建、訓練、微調或以其他方式改進人工智能模型，您應在相關網站、用戶界面、博客文章、關於頁面或產品文檔中註明“基於NVIDIA Cosmos構建”； 3.3. 您可以在您的修改內容中添加自己的版權聲明，並可以為您的修改內容或任何此類衍生模型整體的使用、複製或分發提供額外或不同的許可條款和條件，前提是您對模型的使用、複製和分發在其他方面符合本協議規定的條件。

4. 商標

本協議未授予使用NVIDIA的商號、商標、服務標記或產品名稱的許可，但在合理和慣常描述模型來源以及複製“通知”文本文件內容時所需的情況除外。

5. 保修免責聲明

除非適用法律要求或書面同意，NVIDIA按“現狀”提供模型，不提供任何形式的明示或暗示的保證或條件，包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證或條件。您獨自負責確定使用或再分發模型、衍生模型和輸出的適當性，並承擔在本協議下行使權限所涉及的任何風險。

6. 責任限制

在任何情況下，無論依據何種法律理論（包括侵權（包括疏忽）、合同或其他），除非適用法律要求（如故意和重大過失行為）或書面同意，NVIDIA均不對您因本協議或使用或無法使用模型、衍生模型或輸出而產生的任何損害負責，包括但不限於任何直接、間接、特殊、偶然或後果性損害（包括但不限於商譽損失、工作停頓、計算機故障或故障，或任何和所有其他商業損害或損失），即使NVIDIA已被告知此類損害的可能性。

7. 賠償

您將賠償並使NVIDIA免受因您使用或分發模型、模型衍生作品或輸出而引起的任何第三方索賠的損害。

8. 反饋

NVIDIA感謝您的反饋，您同意NVIDIA可以無限制地使用您的反饋，且無需向您支付補償。

9. 適用法律

本協議在所有方面均受美國法律和特拉華州法律管轄，不考慮法律衝突原則或《聯合國國際貨物銷售合同公約》。位於加利福尼亞州聖克拉拉縣的州和聯邦法院對因本協議引起或與之相關的任何爭議或索賠具有專屬管轄權，雙方不可撤銷地同意接受這些法院的個人管轄權和審判地；但任何一方均可在任何司法管轄區申請禁令救濟或同等類型的緊急法律救濟。