Cosmos-Predict2-2B-Text2Image開源模型 - 生成有物理感知圖像，助力物理AI開發

首頁

Cosmos Predict2 2B Text2Image

由nvidia開發

Cosmos-Predict2是一系列高性能的預訓練世界基礎模型，專為生成具備物理感知的圖像、視頻和世界狀態而設計，可用於物理AI的開發。

文本生成圖像開源協議:其他 #物理感知生成 #多模態擴散模型 #世界狀態預測

下載量 473

發布時間 : 4/22/2025

模型概述

Cosmos-Predict2能夠根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，是各類世界生成相關應用或研究的基礎。

模型特點

高性能預訓練

經過高度優化的預訓練世界基礎模型，能夠生成具備物理感知的圖像、視頻和世界狀態。

多模態輸入支持

支持文本、圖像或視頻作為輸入，生成動態、高質量的圖像和視頻。

商業可用

該模型可在NVIDIA開放模型許可協議下進行商業使用。

模型能力

文本到圖像生成

視頻到世界狀態預測

物理感知內容生成

使用案例

物理AI開發

動態場景生成

根據文本描述生成具備物理感知的動態場景圖像。

生成高質量、物理合理的場景圖像

未來幀預測

根據文本描述和第一幀圖像預測未來幀。

生成連貫、物理合理的視頻序列

🚀 Cosmos-Predict2：一套基於擴散模型的世界基礎模型，提供2B和14B版本

Cosmos-Predict2是一系列高性能的預訓練世界基礎模型，專為生成具備物理感知的圖像、視頻和世界狀態而設計，可用於物理AI的開發。它能根據文本、圖像或視頻輸入，生成動態、高質量的圖像和視頻，是各類世界生成相關應用或研究的基礎。該模型可在NVIDIA開放模型許可協議下進行商業使用。

🚀 快速開始

你可以參考 Cosmos-Predict2 獲取詳細信息。

💻 使用示例

基礎用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# Available checkpoints: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-2B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

✨ 主要特性

高性能預訓練：Cosmos-Predict2是經過高度優化的預訓練世界基礎模型，能夠生成具備物理感知的圖像、視頻和世界狀態。
多模態輸入支持：支持文本、圖像或視頻作為輸入，生成動態、高質量的圖像和視頻。
商業可用：該模型可在NVIDIA開放模型許可協議下進行商業使用。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 Cosmos-Predict2 獲取安裝相關信息。

📚 詳細文檔

模型概述

模型鏈接：Cosmos | 代碼 | 官網
模型版本
- Cosmos-Predict2-2B-Text2Image：根據文本描述預測輸出圖像。
- Cosmos-Predict2-14B-Text2Image：根據文本描述預測輸出圖像。
- Cosmos-Predict2-2B-Video2World：根據文本描述和第一幀圖像預測未來幀。
- Cosmos-Predict2-14B-Video2World：根據文本描述和第一幀圖像預測未來幀。
許可證：該模型基於 NVIDIA開放模型許可協議發佈。如需自定義許可，請聯繫 cosmos-license@nvidia.com。
- 重要提示：如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制，您在 NVIDIA開放模型許可協議下的權利將自動終止。
部署地域：全球

模型架構

Cosmos-Predict2-2B-Text2Image是一個擴散變壓器模型，用於在潛在空間中進行圖像去噪。該網絡由交錯的自注意力、交叉注意力和前饋層組成。交叉注意力層允許模型在去噪過程中以輸入文本為條件。在每層之前，應用自適應層歸一化來嵌入去噪的時間信息。

輸入/輸出規格

屬性	詳情
輸入類型	文本
輸入格式	字符串
輸入參數	一維 (1D)
輸入相關其他屬性	輸入字符串應包含少於300個單詞，並應提供用於世界生成的描述性內容，如場景描述、關鍵對象或角色、背景以及在5秒內要描繪的任何特定動作或運動。
輸出類型	圖像
輸出格式	jpg
輸出參數	二維 (2D)
輸出相關其他屬性	默認情況下，生成的圖像分辨率為1280x704像素，RGB顏色。圖像內容可視化輸入文本描述，在指定時間約束內捕捉關鍵元素。

我們的AI模型設計和/或優化為在NVIDIA GPU加速系統上運行。通過利用NVIDIA的硬件（如GPU核心）和軟件框架（如CUDA庫），與僅使用CPU的解決方案相比，該模型可實現更快的訓練和推理時間。

軟件集成

運行時引擎：Cosmos-Predict2、Diffusers
支持的硬件微架構兼容性：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper
注意：僅測試了BF16精度。其他精度如FP16或FP32未得到官方支持。

推理

加速引擎：PyTorch、Transformer Engine
操作系統：Linux（我們未在其他操作系統上進行測試。）
系統要求和性能：該模型需要26.02 GB的GPU VRAM。以下表格顯示了在不同NVIDIA GPU硬件上單次生成的推理時間： | GPU硬件 | 推理運行時間 | |--------------|----------------------------| | NVIDIA GB200 | 3.39秒 | | NVIDIA B200 | 3.24秒 | | NVIDIA RTX PRO 6000工作站版 | 5.59秒 | | NVIDIA DGX Spark | 24.87秒 | | NVIDIA H200 SXM | 9.02秒 | | NVIDIA H200 NVL | 6.34秒 | | NVIDIA H100 PCIe | 11.12秒 | | NVIDIA H100 NVL | 5.05秒 | | NVIDIA H20 | 11.47秒 | | NVIDIA L40S | 8.9秒 | | NVIDIA RTX 6000 Ada Generation | 11.94秒 |

質量基準

為進行比較評估，我們提供了來自 GenEval 評估框架的基準分數：

方法	總體	單個對象	兩個對象	計數	顏色	位置	顏色屬性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

🔧 技術細節

儘管Cosmos-Predict2文本到圖像模型在物理AI的世界生成方面有了各種改進，但在世界預測方面仍面臨技術和應用限制。特別是，它們難以生成無偽影的高分辨率圖像。常見問題包括相機和對象運動不穩定以及交互不精確。模型可能在生成的圖像中不準確地表示3D空間或物理定律，導致諸如不現實的交互和不合理的運動等偽影。因此，將這些模型應用於需要模擬基於物理定律的環境或複雜多智能體動力學的應用仍然具有挑戰性。

📄 許可證

本模型基於 NVIDIA開放模型許可協議發佈。協議主要內容如下：

1. 定義

NVIDIA Cosmos模型：指根據本協議共享的多模態模型。
衍生模型：指對模型的所有 (a) 修改、(b) 基於模型的作品以及 (c) 模型的任何其他衍生作品。輸出不是衍生模型。
法律實體：指行動實體以及所有其他控制該實體、受該實體控制或與該實體受共同控制的實體的聯合。就本定義而言，“控制” 指 (a) 直接或間接導致該實體的方向或管理的權力，無論是通過合同還是其他方式；(b) 擁有百分之五十 (50%) 或更多的已發行股份；或 (c) 該實體的實益所有權。
模型：指根據本協議共享的機器學習模型、軟件、檢查點、學習權重、算法、參數、配置文件和文檔。
您：指行使本協議授予的權限的個人或法律實體。

2. 使用條件、許可授予、AI倫理和知識產權所有權

使用條件：模型和任何衍生模型受本協議第2節和第3節所述的附加條款的約束，並管理您的使用。如果您對任何實體提起版權或專利訴訟（包括訴訟中的交叉索賠或反訴），聲稱模型或衍生模型構成直接或間接版權或專利侵權，則本協議授予您的該模型或衍生模型的任何許可將自提起該訴訟之日起終止。如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制，您在本協議下的權利將自動終止。NVIDIA可隨時更新本協議以遵守法律和監管要求，您同意遵守任何更新的許可或停止複製、使用和分發模型及任何衍生模型。
許可授予：本協議明確授予的權利以您完全遵守本協議的條款為條件。在遵守本協議的條款和條件的前提下，NVIDIA特此授予您永久、全球、非排他、免費、免版稅、可撤銷（如第2.1節所述）的許可，以公開表演、公開展示、複製、使用、創作衍生作品、製造、讓他人制造、銷售、提供銷售、分發（通過多級分發）和進口模型。
AI倫理：根據本協議使用模型必須符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上的可信AI條款。
知識產權所有權：NVIDIA擁有模型和NVIDIA創建的任何模型衍生作品。在NVIDIA對模型或其模型衍生作品的潛在所有權權利的前提下，您是並將是您的模型衍生作品的所有者。NVIDIA對輸出不主張所有權權利。您負責輸出及其後續使用。除非本協議明確授予，(a) NVIDIA保留與模型相關的所有權利、權益和補救措施，並且 (b) 未通過暗示、禁止反言或其他方式授予您任何其他許可或權利。

3. 再分發

您可以在任何介質中複製和分發模型或其衍生模型的副本，無論是否進行修改，但前提是您滿足以下條件：

如果您分發模型，您必須向模型的任何其他接收者提供本協議的副本，並在隨附副本的 “通知” 文本文件中包含以下歸屬聲明：“由NVIDIA Corporation根據NVIDIA開放模型許可授權”。
如果您分發或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的產品或服務（包括AI模型），使用NVIDIA Cosmos模型創建衍生模型，或使用NVIDIA Cosmos模型或其輸出來創建、訓練、微調或以其他方式改進AI模型，您將在相關網站、用戶界面、博客文章、關於頁面或產品文檔中包含 “基於NVIDIA Cosmos構建”。
您可以在您的修改中添加您自己的版權聲明，並可以為您的修改或任何此類衍生模型的整體使用、複製或分發提供額外或不同的許可條款和條件，前提是您對模型的使用、複製和分發符合本協議規定的條件。

4. 商標

本協議未授予使用NVIDIA的商號、商標、服務標記或產品名稱的許可，除非在描述模型的來源和複製 “通知” 文本文件的內容時進行合理和慣常使用所需。

5. 保修免責聲明

除非適用法律要求或書面同意，NVIDIA按 “現狀” 提供模型，不提供任何形式的保證或條件，無論是明示的還是暗示的，包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證或條件。您獨自負責確定使用或再分發模型、衍生模型和輸出的適當性，並承擔與您行使本協議下的權限相關的任何風險。

6. 責任限制

在任何情況下，無論根據何種法律理論，無論是侵權（包括疏忽）、合同還是其他方式，除非適用法律要求（如故意和重大過失行為）或書面同意，NVIDIA均不對您承擔損害賠償責任，包括因本協議或使用或無法使用模型、衍生模型或輸出而產生的任何直接、間接、特殊、偶然或後果性損害（包括但不限於商譽損失、工作停頓、計算機故障或故障或任何和所有其他商業損害或損失），即使NVIDIA已被告知此類損害的可能性。

7. 賠償

您將賠償並使NVIDIA免受任何第三方因您使用或分發模型、模型衍生作品或輸出而產生的任何索賠。

8. 反饋

NVIDIA感謝您的反饋，您同意NVIDIA可以無限制地使用該反饋，且無需向您支付補償。

9. 適用法律

本協議在所有方面均受美國法律和特拉華州法律的管轄，不考慮法律衝突原則或《聯合國國際貨物銷售合同公約》。位於加利福尼亞州聖克拉拉縣的州和聯邦法院對因本協議產生的或與本協議相關的任何爭議或索賠具有專屬管轄權，雙方不可撤銷地同意這些法院的個人管轄權和審判地；但任何一方均可在任何司法管轄區申請禁令救濟或同等類型的緊急法律救濟。

10. 貿易和合規

您同意遵守所有適用的出口、進口、貿易和經濟制裁法律和法規，包括但不限於美國出口管理條例和外國資產控制辦公室條例。這些法律包括對目的地、最終用戶和最終用途的限制。

注意事項

⚠️ 重要提示

如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關安全護欄超參數、加密、安全、數字版權管理或認證機制，您在 NVIDIA開放模型許可協議下的權利將自動終止。

💡 使用建議

NVIDIA認為可信AI是一項共同責任，我們已經制定了政策和實踐，以支持廣泛的AI應用開發。當根據我們的服務條款下載或使用時，開發者應與其內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決不可預見的產品濫用問題。用戶負責模型的輸入和輸出。用戶負責確保在部署前安全集成該模型，包括實施護欄以及其他安全機制。如需瞭解該模型的倫理考慮的更多詳細信息，請參閱下面的可解釋性、偏差、安全與保障以及隱私子卡。