Cosmos-Predict2-14B-Text2Imageオープンソースモデル - 物理的知覚画像、ビデオおよび世界状態の生成

ホーム

Cosmos Predict2 14B Text2Image

nvidiaによって開発

Cosmos-Predict2は、一連の高性能事前学習世界基礎モデルであり、物理AI開発用に物理感知を備えた画像、ビデオ、世界状態を生成するように設計されています。

テキスト生成画像オープンソースライセンス:その他 #物理感知生成 #多模态拡散モデル #高解像度ビデオ予測

ダウンロード数 312

リリース時間 : 4/22/2025

モデル概要

拡散ベースの世界基礎モデルで、テキスト、画像、またはビデオ入力に基づいて、動的で高品質な画像とビデオを生成でき、さまざまな世界生成関連のアプリケーションや研究の構築ブロックとして利用できます。

モデル特徴

物理感知生成

物理AI用に設計され、物理感知を備えた画像とビデオを生成し、現実世界の物理的相互作用をシミュレートできます。

高品質出力

動的で高品質な画像とビデオを生成し、デフォルトの解像度は1280x704ピクセルです。

多モーダル入力サポート

テキスト、画像、またはビデオを入力条件としてサポートし、さまざまなアプリケーションシーンに柔軟に対応できます。

商用利用許可

NVIDIAオープンモデルライセンスの下で商用利用が可能で、派生モデルを自由に作成し配布できます。

モデル能力

テキストから画像生成

ビデオ予測

物理シーンシミュレーション

多モーダル理解

使用事例

クリエイティブコンテンツ生成

広告クリエイティブ生成

製品説明に基づいて高品質な広告画像を自動生成します。

物理法則に沿った製品展示画像を生成します

ゲーム開発

ゲームシーン生成

テキスト説明に基づいてゲーム内の物理シーンを生成します。

物理的相互作用能力を持つゲーム環境を生成します

映画前制作

分鏡生成

脚本説明に基づいて映画の分鏡画面を生成します。

動的な効果を持つ分鏡画像を生成します

🚀 Cosmos-Predict2: 2Bと14Bで利用可能な拡散ベースの世界基礎モデルのセット

Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に構築された、高性能な事前学習済み世界基礎モデルのファミリーです。これらの拡散モデルは、テキスト、画像、またはビデオ入力から動的で高品質な画像やビデオを生成する拡散ベースの世界基礎モデルのコレクションです。世界生成に関連するさまざまなアプリケーションや研究の基盤として機能します。これらのモデルは、NVIDIA Open Modelライセンス契約の下で商用利用可能です。

Cosmos | コード | ウェブサイト

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。まず、必要なライブラリをインストールします。

import torch
from diffusers import Cosmos2TextToImagePipeline

# 利用可能なチェックポイント: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."

output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")

✨ 主な機能

高度な世界生成: 物理現象を考慮した画像、ビデオ、世界状態を生成することができます。
商用利用可能: NVIDIA Open Modelライセンス契約の下で商用利用が可能です。
多様な入力対応: テキスト、画像、ビデオを入力として受け付けます。

📦 インストール

このモデルを使用するには、diffusersライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install diffusers

💻 使用例

基本的な使用法

import torch
from diffusers import Cosmos2TextToImagePipeline

model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A beautiful sunset over the ocean"
output = pipe(prompt=prompt).images[0]
output.save("sunset.png")

高度な使用法

import torch
from diffusers import Cosmos2TextToImagePipeline

model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A beautiful sunset over the ocean"
negative_prompt = "Low quality, blurry"
output = pipe(
    prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("sunset_high_quality.png")

📚 ドキュメント

モデル概要

説明

Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に構築された、高性能な事前学習済み世界基礎モデルのファミリーです。

モデルバージョン

Cosmos-Predict2拡散ベースのモデルファミリーには、以下のモデルが含まれます。

Cosmos-Predict2-2B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
Cosmos-Predict2-14B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
Cosmos-Predict2-2B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、未来のフレームを予測します。
Cosmos-Predict2-14B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、未来のフレームを予測します。

ライセンス

このモデルは、NVIDIA Open Model Licenseの下でリリースされています。カスタムライセンスについては、cosmos-license@nvidia.comにお問い合わせください。

NVIDIA Open Model Licenseの下で、NVIDIAは以下を確認しています。

モデルは商用利用可能です。
派生モデルを自由に作成および配布することができます。
NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。

⚠️ 重要提示

モデルに含まれる技術的制限、セーフティガードレールまたは関連するセーフティガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル著作権管理、または認証メカニズムを回避、無効化、効果を低下させる、または迂回した場合、NVIDIA Open Model License Agreementに基づくあなたの権利は自動的に終了します。

デプロイメント地域

グローバル

モデルアーキテクチャ

Cosmos-Predict2-14B-Text2Imageは、潜在空間での画像ノイズ除去のために設計された拡散トランスフォーマーモデルです。ネットワークは、交互に配置された自己注意、交差注意、およびフィードフォワードレイヤーを構成要素としています。交差注意レイヤーにより、モデルはノイズ除去プロセス全体で入力テキストを条件とすることができます。各レイヤーの前に、適応的レイヤー正規化が適用され、ノイズ除去のための時間情報が埋め込まれます。

入力/出力仕様

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元 (1D)
入力に関連するその他のプロパティ:
- 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを提供する必要があります。

出力

出力タイプ: 画像
出力形式: jpg
出力パラメータ: 二次元 (2D)
出力に関連するその他のプロパティ: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGBカラーです。画像内容は入力テキスト記述を視覚化し、指定された時間制約内で主要な要素を捉えます。

ソフトウェア統合

ランタイムエンジン

サポートされるハードウェアマイクロアーキテクチャ互換性

NVIDIA Ampere
NVIDIA Blackwell
NVIDIA Hopper

⚠️ 重要提示

テストされているのはBF16精度のみです。FP16やFP32などの他の精度は公式にサポートされていません。

推論

アクセラレーションエンジン

オペレーティングシステム

Linux (他のオペレーティングシステムでのテストは行っていません。)

システム要件とパフォーマンス

このモデルには48.93 GBのGPU VRAMが必要です。以下の表は、さまざまなNVIDIA GPUハードウェアでの単一生成の推論時間を示しています。

GPUハードウェア	推論実行時間
NVIDIA GB200	8.5秒
NVIDIA B200	8.68秒
NVIDIA RTX PRO 6000 Workstation Edition	24.16秒
NVIDIA DGX Spark	138.94秒
NVIDIA H200 SXM	15.96秒
NVIDIA H200 NVL	16.95秒
NVIDIA H100 PCIe	23.83秒
NVIDIA H100 NVL	23.97秒
NVIDIA H20	59.59秒
NVIDIA L40S	(OOM)
NVIDIA RTX 6000 Ada Generation	167.86秒

品質ベンチマーク

比較評価のために、GenEval評価フレームワークからのベンチマークスコアを提示します。

方法	全体	単一オブジェクト	二つのオブジェクト	カウント	色	位置	色の属性
Stable Diffusion XL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
Flux 1-Dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
Cosmos-Predict2-2B-Text2Image	0.83	1.00	0.99	0.73	0.89	0.65	0.73
Cosmos-Predict2-14B-Text2Image	0.84	1.00	0.98	0.79	0.90	0.64	0.72

利用方法

詳細については、Cosmos-Predict2を参照してください。

制限事項

物理AIの世界生成においてさまざまな改善が行われているにもかかわらず、Cosmos-Predict2のテキストから画像へのモデルは、世界予測に関して依然として技術的およびアプリケーション上の制限に直面しています。特に、アーティファクトのない高解像度画像の生成に苦労します。一般的な問題には、カメラやオブジェクトの動きの不安定さ、および不正確な相互作用が含まれます。モデルは、生成された画像において3D空間や物理法則を不正確に表現する可能性があり、非現実的な相互作用や不合理な動きなどのアーティファクトを引き起こします。その結果、物理法則に基づく環境や複雑なマルチエージェントダイナミクスをシミュレートする必要があるアプリケーションにこれらのモデルを適用することは依然として困難です。

倫理的考慮事項

NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。

ユーザーは、モデルの入力と出力に責任があります。ユーザーは、このモデルの安全な統合を確保する責任があり、デプロイ前にガードレールやその他の安全メカニズムを実装する必要があります。

このモデルの倫理的考慮事項の詳細については、以下の説明可能性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードを参照してください。

🔧 技術詳細

モデルアーキテクチャ

入力/出力仕様

入力

入力タイプ: テキスト
入力形式: 文字列
入力パラメータ: 一次元 (1D)
入力に関連するその他のプロパティ:
- 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを提供する必要があります。

出力

出力タイプ: 画像
出力形式: jpg
出力パラメータ: 二次元 (2D)
出力に関連するその他のプロパティ: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGBカラーです。画像内容は入力テキスト記述を視覚化し、指定された時間制約内で主要な要素を捉えます。