Cosmos Predict2 14B Video2World

nvidiaによって開発

Cosmos-Predict2は、物理感知を持った画像、ビデオ、世界状態を生成するために設計された一連の高性能事前学習世界基礎モデルで、物理人工知能の開発に使用できます。

テキスト生成ビデオオープンソースライセンス:その他 #物理感知生成 #マルチモーダルビデオ予測 #高解像度ビデオ合成

ダウンロード数 232

リリース時間 : 4/25/2025

モデル概要

拡散モデルに基づく世界基礎モデルで、テキスト、画像、またはビデオ入力に基づいて、動的で高品質な画像とビデオを生成でき、さまざまな世界生成関連のアプリケーションや研究の基盤となります。

モデル特徴

高性能事前学習

精心に事前学習された世界基礎モデルで、物理感知を持った画像、ビデオ、世界状態を生成できます。

マルチモーダル入力対応

テキスト + 画像、テキスト + ビデオなどのさまざまな入力タイプをサポートし、世界生成により多くの可能性を提供します。

商用利用可能

NVIDIAオープンモデルライセンス契約の下で、商用目的に使用できます。

グローバル展開

世界中での展開をサポートします。

モデル能力

テキストから画像生成

ビデオから世界状態予測

マルチモーダル入力処理

高品質ビデオ生成

使用事例

物理人工知能

動的シーン生成

テキスト記述に基づいて、動的で高品質な画像とビデオを生成し、物理世界のシーンをシミュレートします。

生成されたビデオは重要な要素を捉え、指定された時間制限内でアニメーションシーンを完成させることができます。

世界状態予測

入力された最初のフレーム画像とテキスト記述に基づいて、未来の世界状態を予測します。

生成されたビデオフレームは物理法則と相互作用をシミュレートできます。

クリエイティブコンテンツ生成

アニメーション制作

テキストと画像入力を利用してアニメーションクリップを生成します。

解像度1280x704ピクセル、フレームレート16フレーム/秒の5秒のアニメーションクリップを生成します。

🚀 Cosmos-Predict2: 2Bと14Bの規模で利用可能な拡散ベースの世界基礎モデルのセット

Cosmos | コード | ウェブサイト

🚀 クイックスタート

このセクションでは、Cosmos-Predict2モデルの概要、利用方法、技術的な詳細などを説明します。

✨ 主な機能

モデル概要

説明

Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に設計された、高性能な事前学習済みの世界基礎モデルのファミリーです。

Cosmos-Predict2拡散モデルは、テキスト、画像、またはビデオ入力から動的で高品質な画像やビデオを生成する、拡散ベースの世界基礎モデルのコレクションです。これらのモデルは、世界生成に関連するさまざまなアプリケーションや研究の基盤として利用できます。モデルはNVIDIA Open Modelライセンス契約の下で商用利用が可能です。

モデル開発者: NVIDIA

モデルバージョン

Cosmos-Predict2拡散ベースのモデルファミリーには、以下のモデルが含まれます。

Cosmos-Predict2-2B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
Cosmos-Predict2-14B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
Cosmos-Predict2-2B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、将来のフレームを予測します。
Cosmos-Predict2-14B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、将来のフレームを予測します。

ライセンス

このモデルはNVIDIA Open Model Licenseの下でリリースされています。カスタムライセンスについては、cosmos-license@nvidia.comまでお問い合わせください。

NVIDIA Open Model Licenseの下で、NVIDIAは以下を確認しています。

モデルは商用利用可能です。
派生モデルの作成と配布が自由です。
NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。

⚠️ 重要提示

モデルに含まれる技術的制限、セーフティガードレールまたは関連するセーフティガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル権利管理、または認証メカニズムを回避、無効化、効果を低下させると、NVIDIA Open Model License Agreementに基づくあなたの権利は自動的に終了します。

展開地域

グローバル

モデルアーキテクチャ

Cosmos-Predict2-14B-Video2Worldは、潜在空間でのビデオノイズ除去用に設計された拡散トランスフォーマーモデルです。ネットワークは、自己注意、交差注意、フィードフォワード層が交互に配置された構造を持ち、これらがビルディングブロックとなっています。交差注意層により、モデルはノイズ除去プロセス全体で入力テキストを条件とすることができます。各層の前には、適応的層正規化が適用され、ノイズ除去のための時間情報が埋め込まれます。画像またはビデオが入力として提供される場合、それらの潜在フレームは生成されたフレームと時間次元で連結されます。条件付き潜在フレームには、学習と推論のギャップを埋めるために増幅ノイズが追加されます。

入出力仕様

入力
- 入力タイプ: テキスト+画像、テキスト+ビデオ
- 入力形式:
  - テキスト: 文字列
  - 画像: jpg、png、jpeg、webp
  - ビデオ: mp4
- 入力パラメータ:
  - テキスト: 一次元 (1D)
  - 画像: 二次元 (2D)
  - ビデオ: 三次元 (3D)
- 入力に関連するその他の特性:
  - 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、5秒間の期間内に描写する特定のアクションや動きを含む必要があります。
  - 入力画像は1280x704の解像度である必要があります。
  - 入力ビデオは1280x704の解像度で、5つの入力フレームである必要があります。
出力
- 出力タイプ: ビデオ
- 出力形式: mp4
- 出力パラメータ: 三次元 (3D)
- 出力に関連するその他の特性: デフォルトでは、生成されるビデオは1280x704ピクセルの解像度で、16フレーム/秒 (fps) の5秒間のクリップです。ビデオ内容は、入力テキスト記述を短いアニメーションシーンとして視覚化し、指定された時間制約内で主要な要素を捉えます。

当社のAIモデルは、NVIDIA GPUアクセラレーションシステムでの実行を想定して設計および/または最適化されています。NVIDIAのハードウェア（例: GPUコア）とソフトウェアフレームワーク（例: CUDAライブラリ）を活用することで、CPUのみのソリューションと比較して、高速な学習と推論が可能です。

💻 使用例

基本的な使用法

import torch
from diffusers import Cosmos2VideoToWorldPipeline
from diffusers.utils import export_to_video, load_image

# Available checkpoints: nvidia/Cosmos-Predict2-2B-Video2World, nvidia/Cosmos-Predict2-14B-Video2World
model_id = "nvidia/Cosmos-Predict2-14B-Video2World"
pipe = Cosmos2VideoToWorldPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/yellow-scrubber.png"
)

video = pipe(
    image=image, prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).frames[0]
export_to_video(video, "output.mp4", fps=16)

技術詳細

推論

加速エンジン: PyTorch, Transformer Engine

オペレーティングシステム:

Linux（他のオペレーティングシステムでのテストは行っていません。）

システム要件とパフォーマンス: このモデルには56.38 GBのGPU VRAMが必要です。以下の表は、異なるNVIDIA GPUハードウェアでの単一生成の推論時間を示しています。

GPUハードウェア	推論実行時間
NVIDIA GB200	85.26秒
NVIDIA B200	92.59秒
NVIDIA RTX PRO 6000 Workstation Edition	321.9秒
NVIDIA DGX Spark	1902.26秒
NVIDIA H200 SXM	176.19秒
NVIDIA H200 NVL	203.56秒
NVIDIA H100 PCIe	286.46秒
NVIDIA H100 NVL	377.67秒
NVIDIA H20	852.64秒
NVIDIA L40S	1036.24秒
NVIDIA RTX 6000 Ada Generation	876.68秒

品質ベンチマーク: 比較評価のために、PBenchを使用したベンチマークスコアを提示します。

モデル	PBench総合スコア	PBenchドメインスコア	PBench品質スコア
LTX-Video	74.0	77.2	70.8
HunyuanVideo-I2V	74.0	77.4	70.6
CogVideoX-5B-I2V	74.2	79.5	69.0
Wan2.1-I2V-14B-720P	75.8	81.9	69.7
Cosmos-Predict2-2B-Video2World	77.2	84.8	69.6
Cosmos-Predict2-14B-Video2World	77.4	84.9	69.9

使用方法

詳細については、Cosmos-Predict2を参照してください。

制限事項

物理AIの世界生成において様々な改善が見られるものの、Cosmos-Predict2 video2worldモデルは依然として世界予測に関して技術的およびアプリケーション上の制限に直面しています。特に、アーティファクトのない長時間の高解像度ビデオの生成に苦労しています。一般的な問題としては、時間的な不一致、カメラやオブジェクトの動きの不安定さ、不正確な相互作用などがあります。モデルは、生成されたビデオにおいて3D空間、4D時空間、または物理法則を正確に表現できないことがあり、オブジェクトの消失や変形、非現実的な相互作用、不合理な動きなどのアーティファクトが発生することがあります。そのため、物理法則に基づく環境や複雑なマルチエージェントダイナミクスをシミュレートする必要があるアプリケーションにこれらのモデルを適用することは依然として困難です。

倫理的な考慮事項

NVIDIAは、信頼できるAIは共有の責任であると考えています。

📄 ライセンス

このモデルはNVIDIA Open Model Licenseの下で提供されています。ライセンスの詳細については、以下の内容を参照してください。

NVIDIA Open Model License Agreement

バージョンリリース日: 2025年4月30日

このNVIDIA Open Model License Agreement（以下「契約」という）は、あなたが代表する法的主体、または主体が特定されない場合はあなたとNVIDIA Corporationおよびその関連会社（「NVIDIA」）との間の法的契約であり、この契約の下でNVIDIAがあなたに提供するモデルの使用を規制します。NVIDIAとあなたはそれぞれ「当事者」であり、まとめて「当事者ら」と呼ばれます。

この契約の下でリリースされるNVIDIAのモデルは、柔軟に使用できることを目的としており、AI技術のさらなる開発を可能にします。この契約の条件に従い、NVIDIAは以下を確認します。

モデルは商用利用可能です。
あなたは派生モデルを自由に作成および配布することができます。
NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。

モデルまたは派生モデルの一部または要素を使用、複製、修正、配布、実行または表示すること、またはその他の方法でこの契約の条件を受け入れることにより、あなたはこの契約に拘束されることに同意するものとします。

1. 定義

以下の定義は、この契約に適用されます。

1.1. 「NVIDIA Cosmos Model」とは、この契約の下で共有されるマルチモーダルモデルを意味します。

1.2. 「派生モデル」とは、(a) モデルに対するすべての修正、(b) モデルに基づく作品、および(c) モデルのその他の派生作品を意味します。出力は派生モデルではありません。

1.3. 「法的主体」とは、行動主体と、その主体が支配する、支配される、または共同支配下にあるすべての他の主体の結合体を意味します。この定義の目的上、「支配」とは、(a) 契約またはその他の手段によって、その主体の方向性または管理を引き起こす直接または間接的な権限、(b) 発行済み株式の50％以上の所有権、または(c) その主体の受益所有権を意味します。

1.4. 「モデル」とは、この契約の下で共有される機械学習モデル、ソフトウェア、チェックポイント、学習済みの重み、アルゴリズム、パラメータ、設定ファイルおよびドキュメントを意味します。

1.5. 「あなた」または「あなたの」とは、この契約によって付与された権限を行使する個人または法的主体を意味します。

2. 使用条件、ライセンス付与、AI倫理および知的財産所有権

2.1. 使用条件。モデルおよび派生モデルは、この契約の第2項および第3項に記載された追加の条件に従い、あなたの使用を規制します。あなたが、モデルまたは派生モデルが直接的または寄与的な著作権または特許侵害を構成すると主張して、いかなる主体に対しても著作権または特許訴訟（訴訟における交差請求または反訴を含む）を起こした場合、この契約の下でそのモデルまたは派生モデルに関してあなたに付与されたすべてのライセンスは、その訴訟が提起された日から終了します。あなたが、モデルに含まれる技術的制限、セーフティガードレールまたは関連するセーフティガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル権利管理、または認証メカニズムを回避、無効化、効果を低下させると、この契約に基づくあなたの権利は自動的に終了します。NVIDIAは、法的および規制上の要件に準拠するために、いつでもこの契約を更新することができます。あなたは、更新されたライセンスに準拠するか、またはモデルおよび派生モデルの複製、使用、および配布を中止することに同意するものとします。

2.2. ライセンス付与。ここで付与される権利は、あなたがこの契約の条件を完全に遵守することを明示的な条件としています。この契約の条件に従い、NVIDIAはあなたに対して、モデルを公に実行、公に表示、複製、使用、派生作品を作成、製造、製造を委託、販売、販売の申し出、配布（複数段階の配布を含む）および輸入するための、永続的、世界規模、非排他的、無料、ロイヤリティフリー、取消可能（第2.1項に記載）のライセンスを付与します。

2.3. AI倫理。この契約の下でのモデルの使用は、https://www.nvidia.com/en-us/agreements/trustworthy-ai/terms/に記載されたNVIDIAの信頼できるAIの条件と一致しなければなりません。

2.4. NVIDIAは、モデルおよびNVIDIAによって作成された派生モデルの所有権を保有します。モデルまたはその派生モデルに対するNVIDIAの基礎的な所有権に従い、あなたは、あなたが作成した派生モデルの所有者であり、将来も所有者であり続けます。NVIDIAは、出力に対する所有権を主張しません。あなたは、出力およびその後の使用に責任を負います。この契約で明示的に付与される場合を除き、(a) NVIDIAはモデルに関連するすべての権利、利益および救済を留保し、(b) 暗示、禁反言またはその他の方法によってあなたに他のライセンスまたは権利は付与されません。

3. 再配布

あなたは、以下の条件を満たす限り、モデルまたはその派生モデルのコピーを、修正または未修正の状態で、あらゆる媒体で複製および配布することができます。

3.1. モデルを配布する場合は、モデルの他のすべての受領者にこの契約のコピーを提供し、そのコピーとともに「Notice」テキストファイル内に次の帰属通知を含める必要があります。「Licensed by NVIDIA Corporation under the NVIDIA Open Model License」

3.2. NVIDIA Cosmos Model、またはNVIDIA Cosmos Modelを含む、または使用する製品もしくはサービス（AIモデルを含む）を配布または提供する場合、NVIDIA Cosmos Modelを使用して派生モデルを作成する場合、またはNVIDIA Cosmos Modelまたはその出力を使用してAIモデルを作成、学習、微調整、またはその他の方法で改善する場合は、関連するウェブサイト、ユーザーインターフェース、ブログ投稿、概要ページ、または製品ドキュメントに「Built on NVIDIA Cosmos」を記載します。

3.3. あなたは、あなたの修正に独自の著作権声明を追加することができ、あなたの修正、または派生モデル全体の使用、複製、または配布に関して、追加または異なるライセンス条件を提供することができます。ただし、モデルの使用、複製、および配布は、この契約に記載された条件に準拠する必要があります。

4. 商標

この契約は、NVIDIAの商号、商標、サービスマーク、または製品名の使用許可を付与するものではありません。ただし、モデルの出所を説明し、「Notice」テキストファイルの内容を複製するための合理的かつ慣習的な使用に必要な場合を除きます。

5. 保証の否認

適用される法律によって要求される場合、または書面で合意されない限り、NVIDIAは、モデルを「現状のまま」で提供し、いかなる種類の保証または条件も明示的または暗示的に付与しません。これには、限定されないが、権利、非侵害、商品性、または特定の目的への適合性に関する保証または条件が含まれます。あなたは、モデル、派生モデルおよび出力の使用または再配布の適切性を独自に判断し、この契約に基づく権限の行使に関連するすべてのリスクを負います。

6. 責任の制限

いかなる場合でも、またいかなる法的理論に基づいても、適用される法律によって要求される場合（故意および重大な過失行為など）、または書面で合意されない限り、NVIDIAは、この契約に起因する、またはモデル、派生モデルまたは出力の使用または使用不能に起因する損害（直接的、間接的、特別的、偶発的、または結果的な損害を含む）に対して、あなたに対して責任を負いません。これには、限定されないが、信用喪失、業務停止、コンピューターの故障または誤動作、またはその他のすべての商業的損害または損失に対する損害賠償が含まれます。たとえNVIDIAがそのような損害の可能性を知らされていた場合でも同様です。

7. 補償

あなたは、モデル、派生モデルまたは出力の使用または配布に起因する、または関連する第三者からのいかなる請求からも、NVIDIAを補償し、免責するものとします。

8. フィードバック

NVIDIAはあなたのフィードバックを大切にしており、あなたはNVIDIAがそれを制限なく、またあなたに対する補償なしに使用することに同意するものとします。

9. 準拠法

この契約は、すべての点で米国の法律およびデラウェア州の法律に準拠して解釈され、適用されます。法規の抵触原則または国際商品売買契約に関する国際連合条約は考慮されません。カリフォルニア州サンタクララ郡に所在する州および連邦裁判所は、この契約に起因する、または関連するいかなる紛争または請求に対しても排他的な管轄権を有し、当事者らはそれらの裁判所に対する個人的管轄権および裁判管轄区域に無条件に同意します。ただし、いずれかの当事者は、いかなる管轄区域でも、差止命令または同等の緊急的な法的救済を申請することができます。