Cosmos-1.0-Diffusion-7B-Text2World開源模型 - 依據文本輸入生成高質量物理感知視頻

首頁

Cosmos 1.0 Diffusion 7B Text2World

由nvidia開發

NVIDIA開發的基於擴散架構的多模態世界基礎模型，能夠根據文本輸入生成高質量物理感知視頻

文本生成視頻開源協議:其他 #物理感知視頻生成 #多模態擴散模型 #高幀率視頻合成

下載量 5,011

發布時間 : 1/7/2025

模型概述

Cosmos是專為生成物理感知視頻和物理AI開發設計的高性能預訓練世界基礎模型系列，支持文本、圖像或視頻輸入生成動態視頻

模型特點

多模態輸入支持

支持文本、圖像或視頻作為輸入條件生成連貫視頻序列

物理感知生成

生成的視頻具有物理合理性，適合物理AI開發應用

商業友好許可

允許商用和創建衍生模型，NVIDIA不對輸出內容主張所有權

安全護欄機制

內置安全組件防止不當內容生成，規避機制將導致許可終止

模型能力

文本到視頻生成

視頻預測（基於首幀）

多分辨率輸出

可變幀率控制

使用案例

娛樂媒體

短視頻內容生成

根據劇本描述自動生成短視頻內容

5秒1280x704分辨率視頻

物理模擬

物理現象預測

基於初始狀態預測物體運動軌跡

120幀物理合理運動序列

🚀 Cosmos-1.0-Diffusion：一套基於擴散模型的世界基礎模型套件

Cosmos-1.0-Diffusion 是一系列高性能的預訓練世界基礎模型，專為生成具有物理感知的視頻和世界狀態而設計，可用於物理人工智能的開發。

Cosmos | 代碼 | 論文 | 論文網站

🚀 快速開始

模型概述

描述

Cosmos世界基礎模型 是一族高性能的預訓練世界基礎模型，專為生成具有物理感知的視頻和世界狀態而設計，用於物理人工智能的開發。

Cosmos擴散模型是一組基於擴散的世界基礎模型，可根據文本、圖像或視頻輸入生成動態、高質量的視頻。它可以作為各種與世界生成相關的應用或研究的構建塊。這些模型在NVIDIA開放模型許可協議下可用於商業用途。

模型開發者：NVIDIA

模型版本

在Cosmos 1.0版本中，Cosmos擴散世界基礎模型家族包括以下模型：

Cosmos-1.0-Diffusion-7B-Text2World
- 根據文本描述，預測一個包含121幀的輸出視頻。
Cosmos-1.0-Diffusion-14B-Text2World
- 根據文本描述，預測一個包含121幀的輸出視頻。
Cosmos-1.0-Diffusion-7B-Video2World
- 根據文本描述和作為第一幀的圖像，預測未來的120幀。
Cosmos-1.0-Diffusion-14B-Video2World
- 根據文本描述和作為第一幀的圖像，預測未來的120幀。

許可證

該模型根據 NVIDIA開放模型許可證發佈。如需定製許可證，請聯繫 cosmos-license@nvidia.com。

在NVIDIA開放模型許可證下，NVIDIA確認：

模型可用於商業用途。
您可以自由創建和分發衍生模型。
NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。

⚠️ 重要提示

如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄 或相關的安全護欄超參數、加密、安全、數字版權管理或認證機制，您在 NVIDIA開放模型許可協議下的權利將自動終止。 Cosmos-1.0-Guardrail 是此模型的安全護欄。

模型架構

Cosmos-1.0-Diffusion-7B-Text2World是一個用於潛在空間視頻去噪的擴散變壓器模型。該網絡由交錯的自注意力、交叉注意力和前饋層作為構建塊組成。交叉注意力層允許模型在去噪過程中以輸入文本為條件。在每層之前，應用自適應層歸一化來嵌入去噪的時間信息。當提供圖像或視頻作為輸入時，它們的潛在幀會沿時間維度與生成的幀連接。在條件潛在幀中添加增強噪聲以彌合訓練和推理之間的差距。

輸入/輸出規格

屬性	詳情
輸入
輸入類型	文本
輸入格式	字符串
輸入參數	一維 (1D)
其他輸入相關屬性	輸入字符串應包含少於300個單詞，並應提供用於世界生成的描述性內容，例如場景描述、關鍵對象或角色、背景以及在5秒內要描繪的任何特定動作或運動。
輸出
輸出類型	視頻
輸出格式	mp4
輸出參數	三維 (3D)
其他輸出相關屬性	默認情況下，生成的視頻是一個5秒的剪輯，分辨率為1280x704像素，幀率為24幀/秒 (fps)。視頻內容將輸入文本描述可視化為一個簡短的動畫場景，在指定的時間限制內捕捉關鍵元素。寬高比和分辨率是可配置的，選項包括1:1 (960x960像素)、4:3 (960x704像素)、3:4 (704x960像素)、16:9 (1280x704像素) 和9:16 (704x1280像素)。幀率也可在12到40 fps的範圍內調整。

軟件集成

運行時引擎

支持的硬件微架構兼容性

NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Ampere

⚠️ 重要提示

我們僅測試了使用BF16精度進行推理。

操作系統

Linux（我們未在其他操作系統上進行測試）

使用示例

基礎用法

import torch
from diffusers import CosmosTextToWorldPipeline
from diffusers.utils import export_to_video

model_id = "nvidia/Cosmos-1.0-Diffusion-7B-Text2World"
pipe = CosmosTextToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A sleek, humanoid robot stands in a vast warehouse filled with neatly stacked cardboard boxes on industrial shelves. The robot's metallic body gleams under the bright, even lighting, highlighting its futuristic design and intricate joints. A glowing blue light emanates from its chest, adding a touch of advanced technology. The background is dominated by rows of boxes, suggesting a highly organized storage system. The floor is lined with wooden pallets, enhancing the industrial setting. The camera remains static, capturing the robot's poised stance amidst the orderly environment, with a shallow depth of field that keeps the focus on the robot while subtly blurring the background for a cinematic effect."

output = pipe(prompt=prompt).frames[0]
export_to_video(output, "output.mp4", fps=30)

更多信息請參閱diffusers 文檔。

評估

請參閱我們的技術論文以獲取詳細的評估信息。

推理時間和GPU內存使用

以下提供的數字可能會因系統規格而異，僅供參考。

我們報告了端到端推理期間觀察到的最大GPU內存使用情況。此外，我們提供了一系列模型卸載策略，以幫助用戶有效管理GPU內存使用。

對於內存有限的GPU（例如具有24 GB內存的RTX 3090/4090），我們建議完全卸載所有模型。對於高端GPU，用戶可以根據以下提供的數字選擇最合適的卸載策略。

卸載策略	7B Text2World	14B Text2World
卸載提示上採樣器	74.0 GB	> 80.0 GB
卸載提示上採樣器和護欄	57.1 GB	70.5 GB
卸載提示上採樣器、護欄和T5編碼器	38.5 GB	51.9 GB
卸載提示上採樣器、護欄、T5編碼器和分詞器	38.3 GB	51.7 GB
卸載提示上採樣器、護欄、T5編碼器、分詞器和擴散模型	24.4 GB	39.0 GB

下表顯示了在單個H100 GPU上的端到端推理運行時間，不包括模型初始化時間。

7B Text2World (卸載提示上採樣器)	14B Text2World (卸載提示上採樣器、護欄)
~380秒	~590秒

倫理考慮

NVIDIA認為可信AI是一項共同責任，我們已經制定了政策和實踐，以支持各種AI應用的開發。當按照我們的服務條款下載或使用時，開發者應與他們的內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決意外的產品濫用問題。

如需瞭解有關該模型倫理考慮的更多詳細信息，請參閱以下可解釋性、偏差、安全與保障以及隱私的子卡片。請在此報告安全漏洞或NVIDIA AI相關問題。

附加承諾 (++)

我們重視您、數據集、它們所代表的多樣性以及我們所承擔的責任。此模型及其相關數據已經：

驗證符合當前適用的披露法律、法規和行業標準。
驗證符合適用的隱私標籤要求。
標註以描述收集者/來源（NVIDIA或第三方）。
表徵技術限制。
審查以確保適當的披露可供NVIDIA數據主體訪問、維護並符合其要求。
在發佈前進行審查。
標記已知的限制和潛在的安全影響。

偏差

領域	響應
模型設計和測試中受不利影響群體受保護類別的參與考慮	無
為減輕不必要的偏差所採取的措施	無

可解釋性

領域	響應
預期應用和領域	世界生成
模型類型	變壓器
預期用戶	物理AI開發者
輸出	視頻
描述模型的工作原理	根據視頻輸入生成視頻
技術限制	模型可能無法準確遵循視頻輸入。
驗證是否符合規定的NVIDIA質量標準	是
性能指標	定量和定性評估
潛在已知風險	模型的輸出可以生成各種形式的視頻，包括可能被認為有毒、冒犯性或不適當的視頻。
許可	NVIDIA開放模型許可證

隱私

領域	響應
是否可生成或逆向工程個人信息	未知
是否使用受保護類別的數據創建此模型	未知
是否獲得使用任何個人數據的同意	未知
數據集多久審查一次	發佈前
是否有機制來尊重數據主體訪問或刪除個人數據的權利	不適用
如果為模型開發收集了個人數據，是否由NVIDIA直接收集	不適用
如果NVIDIA為模型開發收集了個人數據，是否維護或有權訪問向數據主體作出的披露	不適用
如果為開發此AI模型收集了個人數據，是否僅收集了所需的數據	不適用
訓練中使用的所有數據集是否有來源證明	是
數據標註（註釋、元數據）是否符合隱私法	是
如果提出了數據校正或刪除請求，數據是否符合數據主體的請求	不適用

安全

領域	響應
模型應用	世界生成
描述關鍵生命影響（如果存在）	未知
用例限制	NVIDIA開放模型許可證
模型和數據集限制	應用最小特權原則 (PoLP) 限制數據集生成和模型開發的訪問權限。在訓練期間實施數據集訪問限制，並遵守數據集許可約束。模型檢查點可在Hugging Face上獲取，並可能在雲提供商的模型目錄中提供。

許可證

此模型根據 NVIDIA開放模型許可證發佈。該許可證的詳細內容如下：

NVIDIA開放模型許可協議

版本發佈日期：2025年1月6日

本NVIDIA開放模型許可協議（以下簡稱“協議”）是您所代表的法律實體（如果未確定實體，則為您本人）與NVIDIA Corporation及其附屬公司（“NVIDIA”）之間的法律協議，規範您根據本協議使用NVIDIA向您提供的模型的行為。NVIDIA和您各自為“一方”，合稱為“雙方”。

根據本協議發佈的NVIDIA模型旨在允許自由使用，並促進人工智能技術的進一步發展。在遵守本協議條款的前提下，NVIDIA確認：

模型可用於商業用途。
您可以自由創建和分發衍生模型。
NVIDIA不主張對使用模型或衍生模型生成的任何輸出擁有所有權。

通過使用、複製、修改、分發、執行或展示模型或衍生模型的任何部分或元素，或以其他方式接受本協議的條款，您同意受本協議的約束。

定義

以下定義適用於本協議： 1.1. “NVIDIA Cosmos模型” 指根據本協議共享的多模態模型。 1.2. “衍生模型” 指所有 (a) 對模型的修改，(b) 基於模型的作品，以及 (c) 模型的任何其他衍生作品。輸出不是衍生模型。 1.3. “法律實體” 指行動實體以及所有對該實體具有 “控制權”、受該實體 “控制” 或與該實體處於共同 “控制” 之下的其他實體的總和。就本定義而言，“控制” 指 (a) 直接或間接導致該實體的方向或管理的權力，無論是通過合同還是其他方式，或 (b) 擁有百分之五十 (50%) 或更多的已發行股份，或 (c) 對該實體的受益所有權。 1.4. “模型” 指根據本協議共享的機器學習模型、軟件、檢查點、學習到的權重、算法、參數、配置文件和文檔。 1.5. “您” 或 “您的” 指行使本協議授予的權限的個人或法律實體。

使用條件、許可授予、AI倫理和知識產權所有權

2.1. 使用條件。模型和任何衍生模型受本協議第2節和第3節所述的附加條款約束，並規範您的使用。如果您對任何實體提起版權或專利訴訟（包括訴訟中的交叉索賠或反訴），聲稱模型或衍生模型構成直接或間接的版權或專利侵權，則本協議授予您的該模型或衍生模型的任何許可將自該訴訟提起之日起終止。如果您繞過、禁用、降低效果或規避模型中包含的任何技術限制、安全護欄或相關的安全護欄超參數、加密、安全、數字版權管理或認證機制，您在本協議下的權利將自動終止。NVIDIA可隨時更新本協議以遵守法律和監管要求，您同意遵守任何更新後的許可，否則停止複製、使用和分發模型及任何衍生模型。 2.2. 許可授予。此處授予的權利明確以您完全遵守本協議的條款為條件。在遵守本協議的條款和條件的前提下，NVIDIA特此授予您永久、全球、非排他、免費、免版稅、可撤銷（如第2.1節所述）的許可，以公開表演、公開展示、複製、使用、創作衍生作品、製造、委託製造、銷售、要約銷售、分發（通過多級分發）和進口模型。 2.3. AI倫理。根據本協議使用模型必須符合NVIDIA在 https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/ 上發佈的可信AI條款。 2.4. NVIDIA擁有模型以及NVIDIA創建的任何模型衍生作品。在NVIDIA對模型或其模型衍生作品的底層所有權權利的前提下，您是並將繼續是您的模型衍生作品的所有者。NVIDIA不主張對輸出擁有所有權。您對輸出及其後續使用負責。除非本協議明確授予，(a) NVIDIA保留與模型相關的所有權利、權益和救濟，(b) 未通過暗示、禁止反言或其他方式向您授予任何其他許可或權利。

再分發

您可以在任何介質中複製和分發模型或其衍生模型的副本，無論是否進行修改，但前提是您滿足以下條件： 3.1. 如果您分發模型，您必須向模型的任何其他接收者提供本協議的副本，並在隨副本提供的 “通知” 文本文件中包含以下歸屬聲明：“由NVIDIA Corporation根據NVIDIA開放模型許可證許可”； 3.2. 如果您分發或提供NVIDIA Cosmos模型，或包含或使用NVIDIA Cosmos模型的產品或服務（包括AI模型），使用NVIDIA Cosmos模型創建衍生模型，或使用NVIDIA Cosmos模型或其輸出來創建、訓練、微調或以其他方式改進AI模型，您將在相關網站、用戶界面、博客文章、關於頁面或產品文檔中包含 “基於NVIDIA Cosmos構建”； 3.3. 您可以在您的修改中添加自己的版權聲明，並可以為您的修改或任何此類衍生模型的整體使用、複製或分發提供額外或不同的許可條款和條件，前提是您對模型的使用、複製和分發符合本協議規定的條件。

商標

本協議未授予使用NVIDIA的商號、商標、服務標記或產品名稱的許可，除非在描述模型的來源和複製 “通知” 文本文件的內容時進行合理和慣常的使用。

保修免責聲明

除非適用法律要求或書面同意，NVIDIA按 “現狀” 提供模型，不提供任何形式的保證或條件，無論是明示的還是暗示的，包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證或條件。您獨自負責確定使用或再分發模型、衍生模型和輸出的適用性，並承擔與您行使本協議下的權限相關的任何風險。

責任限制

在任何情況下，無論根據何種法律理論（包括侵權（包括疏忽）、合同或其他），除非適用法律要求（如故意和重大過失行為）或書面同意，NVIDIA均不對您承擔損害賠償責任，包括因本協議或使用或無法使用模型、衍生模型或輸出而產生的任何直接、間接、特殊、偶然或後果性損害（包括但不限於商譽損失、停工、計算機故障或故障或任何和所有其他商業損害或損失），即使NVIDIA已被告知此類損害的可能性。

賠償

您將賠償並使NVIDIA免受任何第三方因您使用或分發模型、模型衍生作品或輸出而產生的或與之相關的任何索賠。

反饋

NVIDIA感謝您的反饋，您同意NVIDIA可以無限制地使用您的反饋，且無需向您支付補償。

適用法律

本協議在所有方面均受美國法律和特拉華州法律管轄，不考慮法律衝突原則或《聯合國國際貨物銷售合同公約》。位於加利福尼亞州聖克拉拉縣的州和聯邦法院對因本協議產生的或與之相關的任何爭議或索賠具有專屬管轄權，雙方不可撤銷地同意這些法院的個人管轄權和審判地；但任何一方均可在任何司法管轄區申請禁令救濟或同等類型的緊急法律救濟。