Cosmos - Predict2 - 2B - Text2Imageオープンソースモデル - 物理感知画像を生成し、物理AI開発を支援

ホーム

Cosmos Predict2 2B Text2Image

nvidiaによって開発

Cosmos-Predict2は、物理感知を持つ画像、ビデオ、世界状態を生成するために設計された一連の高性能事前学習世界基礎モデルで、物理AIの開発に使用できます。

テキスト生成画像オープンソースライセンス:その他 #物理感知生成 #多モーダル拡散モデル #世界状態予測

ダウンロード数 473

リリース時間 : 4/22/2025

モデル概要

Cosmos-Predict2は、テキスト、画像、またはビデオ入力に基づいて、動的で高品質な画像とビデオを生成でき、さまざまな世界生成関連のアプリケーションや研究の基礎となります。

モデル特徴

高性能事前学習

高度に最適化された事前学習世界基礎モデルで、物理感知を持つ画像、ビデオ、世界状態を生成できます。

多モーダル入力サポート

テキスト、画像、またはビデオを入力としてサポートし、動的で高品質な画像とビデオを生成します。

商用可能

このモデルはNVIDIAオープンモデルライセンス契約の下で商用利用できます。

モデル能力

テキストから画像生成

ビデオから世界状態予測

物理感知コンテンツ生成

使用事例

物理AI開発

動的シーン生成

テキスト記述に基づいて物理感知を持つ動的シーン画像を生成します。

高品質で物理的に合理的なシーン画像を生成

未来フレーム予測

テキスト記述と最初のフレーム画像に基づいて未来のフレームを予測します。

連続的で物理的に合理的なビデオシーケンスを生成

🚀 Cosmos-Predict2: 2Bと14Bのバージョンで利用可能な拡散ベースの世界基礎モデルのセット

Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に設計された、高性能な事前学習済みの世界基礎モデルのファミリーです。これらのモデルは、世界生成に関連する様々なアプリケーションや研究の基盤として利用できます。

Cosmos | コード | ウェブサイト

🚀 クイックスタート

Cosmos-Predict2を使用するには、以下のコード例を参考にしてください。

import torch
from diffusers import Cosmos2TextToImagePipeline

# 利用可能なチェックポイント: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-2B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

✨ 主な機能

高性能な事前学習済みモデル：物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成できます。
多様なバージョン：2Bと14Bのバージョンがあり、異なるニーズに対応できます。
商業利用可能：NVIDIA Open Model Licenseの下で商業利用が可能です。

📦 インストール

Cosmos-Predict2を使用するには、必要なライブラリをインストールする必要があります。以下のライブラリが必要です。

💻 使用例

基本的な使用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# 利用可能なチェックポイント: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-2B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A beautiful sunset over the ocean"
output = pipe(prompt=prompt).images[0]
output.save("sunset.png")

高度な使用法

import torch
from diffusers import Cosmos2TextToImagePipeline

# 利用可能なチェックポイント: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-2B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

📚 ドキュメント

モデル概要

説明

Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に設計された、高性能な事前学習済みの世界基礎モデルのファミリーです。

Cosmos-Predict2拡散モデルは、テキスト、画像、またはビデオ入力から動的で高品質な画像やビデオを生成する拡散ベースの世界基礎モデルのコレクションです。これらのモデルは、世界生成に関連する様々なアプリケーションや研究の基盤として利用できます。これらのモデルは、NVIDIA Open Model Licenseの下で商業利用が可能です。

モデル開発者: NVIDIA

モデルバージョン

Cosmos-Predict2拡散ベースのモデルファミリーには、以下のモデルが含まれます。

Cosmos-Predict2-2B-Text2Image
- テキスト記述を入力として、画像を出力します。
Cosmos-Predict2-14B-Text2Image
- テキスト記述を入力として、画像を出力します。
Cosmos-Predict2-2B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、将来のフレームを予測します。
Cosmos-Predict2-14B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、将来のフレームを予測します。

ライセンス

このモデルは、NVIDIA Open Model Licenseの下で公開されています。カスタムライセンスについては、cosmos-license@nvidia.comまでお問い合わせください。

NVIDIA Open Model Licenseの下で、NVIDIAは以下を確認しています。

モデルは商業利用可能です。
派生モデルの作成と配布が自由です。
NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。

⚠️ 重要提示

モデルに含まれる技術的制限、安全ガードレール、または関連する安全ガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル著作権管理、または認証メカニズムを迂回、無効化、効果を低下させる、または回避した場合、NVIDIA Open Model License Agreementに基づくあなたの権利は自動的に終了します。

展開地域

グローバル

モデルアーキテクチャ

Cosmos-Predict2-2B-Text2Imageは、潜在空間での画像ノイズ除去のために設計された拡散トランスフォーマーモデルです。ネットワークは、自己注意、交差注意、およびフィードフォワード層が交互に配置された構造を持ち、これらがモデルの基本構成要素となっています。交差注意層により、モデルはノイズ除去プロセス全体を通じて入力テキストに基づいた処理が可能になります。各層の前には、適応的レイヤー正規化が適用され、ノイズ除去のための時間情報が埋め込まれます。

入力/出力仕様

入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 一次元 (1D)
- 入力に関連するその他の特性:
  - 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを含む必要があります。
出力
- 出力タイプ: 画像
- 出力形式: jpg
- 出力パラメータ: 二次元 (2D)
- 出力に関連するその他の特性: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGB色です。画像内容は入力テキスト記述を視覚化し、指定された時間制約内の主要な要素を捉えます。

当社のAIモデルは、NVIDIA GPUアクセラレーションシステム上で実行するように設計および/または最適化されています。NVIDIAのハードウェア（例：GPUコア）とソフトウェアフレームワーク（例：CUDAライブラリ）を活用することで、CPUのみのソリューションと比較して、より高速なトレーニングと推論時間を実現します。

ソフトウェア統合

ランタイムエンジン:

サポートされるハードウェアマイクロアーキテクチャ互換性:

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper

⚠️ 重要提示

BF16精度のみがテストされています。FP16やFP32などの他の精度は公式にサポートされていません。

推論

アクセラレーションエンジン: PyTorch, Transformer Engine

オペレーティングシステム:

Linux (他のオペレーティングシステムでのテストは行っていません。)

システム要件とパフォーマンス: このモデルには26.02 GBのGPU VRAMが必要です。以下の表は、異なるNVIDIA GPUハードウェアでの単一生成の推論時間を示しています。

GPUハードウェア	推論実行時間
NVIDIA GB200	3.39秒
NVIDIA B200	3.24秒
NVIDIA RTX PRO 6000 Workstation Edition	5.59秒
NVIDIA DGX Spark	24.87秒
NVIDIA H200 SXM	9.02秒
NVIDIA H200 NVL	6.34秒
NVIDIA H100 PCIe	11.12秒
NVIDIA H100 NVL	5.05秒
NVIDIA H20	11.47秒
NVIDIA L40S	8.9秒
NVIDIA RTX 6000 Ada Generation	11.94秒

品質ベンチマーク

比較評価のために、GenEval評価フレームワークからのベンチマークスコアを提示します。

方法	全体	単一オブジェクト	2つのオブジェクト	カウント	色	位置	色属性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

使用方法

詳細については、Cosmos-Predict2を参照してください。

制限事項

物理AIの世界生成において様々な改善が行われているにもかかわらず、Cosmos-Predict2のテキストから画像へのモデルは、世界予測に関して技術的およびアプリケーション上の制限に直面しています。特に、アーティファクトのない高解像度の画像を生成することが困難です。一般的な問題には、カメラやオブジェクトの動きの不安定性、および不正確な相互作用が含まれます。モデルは、生成された画像において3D空間や物理法則を不正確に表現する可能性があり、非現実的な相互作用や不合理な動きなどのアーティファクトを引き起こします。その結果、物理法則に基づく環境や複雑なマルチエージェントダイナミクスをシミュレートする必要があるアプリケーションにこれらのモデルを適用することは依然として困難です。

倫理的考慮事項

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は自社の内部モデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期せぬ製品の誤用に対応できるようにする必要があります。

ユーザーは、モデルの入力と出力に責任があります。ユーザーは、このモデルを安全に統合する責任があり、展開前にガードレールやその他の安全メカニズムを実装する必要があります。

このモデルに関する倫理的考慮事項の詳細については、以下の説明性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードを参照してください。

🔧 技術詳細

モデルアーキテクチャ

入力/出力仕様

入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 一次元 (1D)
- 入力に関連するその他の特性:
  - 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを含む必要があります。
出力
- 出力タイプ: 画像
- 出力形式: jpg
- 出力パラメータ: 二次元 (2D)
- 出力に関連するその他の特性: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGB色です。画像内容は入力テキスト記述を視覚化し、指定された時間制約内の主要な要素を捉えます。

📄 ライセンス

このモデルは、NVIDIA Open Model Licenseの下で公開されています。カスタムライセンスについては、cosmos-license@nvidia.comまでお問い合わせください。

NVIDIA Open Model Licenseの下で、NVIDIAは以下を確認しています。

モデルは商業利用可能です。
派生モデルの作成と配布が自由です。
NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。

⚠️ 重要提示

モデルに含まれる技術的制限、安全ガードレール、または関連する安全ガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル著作権管理、または認証メカニズムを迂回、無効化、効果を低下させる、または回避した場合、NVIDIA Open Model License Agreementに基づくあなたの権利は自動的に終了します。