モデル概要
モデル特徴
モデル能力
使用事例
🚀 Cosmos-Predict2: 2Bと14Bで利用可能な拡散ベースの世界基礎モデルのセット
Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に構築された、高性能な事前学習済み世界基礎モデルのファミリーです。これらの拡散モデルは、テキスト、画像、またはビデオ入力から動的で高品質な画像やビデオを生成する拡散ベースの世界基礎モデルのコレクションです。世界生成に関連するさまざまなアプリケーションや研究の基盤として機能します。これらのモデルは、NVIDIA Open Modelライセンス契約の下で商用利用可能です。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。まず、必要なライブラリをインストールします。
import torch
from diffusers import Cosmos2TextToImagePipeline
# 利用可能なチェックポイント: nvidia/Cosmos-Predict2-2B-Text2Image, nvidia/Cosmos-Predict2-14B-Text2Image
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A close-up shot captures a vibrant yellow scrubber vigorously working on a grimy plate, its bristles moving in circular motions to lift stubborn grease and food residue. The dish, once covered in remnants of a hearty meal, gradually reveals its original glossy surface. Suds form and bubble around the scrubber, creating a satisfying visual of cleanliness in progress. The sound of scrubbing fills the air, accompanied by the gentle clinking of the dish against the sink. As the scrubber continues its task, the dish transforms, gleaming under the bright kitchen lights, symbolizing the triumph of cleanliness over mess."
negative_prompt = "The video captures a series of frames showing ugly scenes, static with no motion, motion blur, over-saturation, shaky footage, low resolution, grainy texture, pixelated images, poorly lit areas, underexposed and overexposed scenes, poor color balance, washed out colors, choppy sequences, jerky movements, low frame rate, artifacting, color banding, unnatural transitions, outdated special effects, fake elements, unconvincing visuals, poorly edited content, jump cuts, visual noise, and flickering. Overall, the video is of poor quality."
output = pipe(
prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("output.png")
✨ 主な機能
- 高度な世界生成: 物理現象を考慮した画像、ビデオ、世界状態を生成することができます。
- 商用利用可能: NVIDIA Open Modelライセンス契約の下で商用利用が可能です。
- 多様な入力対応: テキスト、画像、ビデオを入力として受け付けます。
📦 インストール
このモデルを使用するには、diffusers
ライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。
pip install diffusers
💻 使用例
基本的な使用法
import torch
from diffusers import Cosmos2TextToImagePipeline
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A beautiful sunset over the ocean"
output = pipe(prompt=prompt).images[0]
output.save("sunset.png")
高度な使用法
import torch
from diffusers import Cosmos2TextToImagePipeline
model_id = "nvidia/Cosmos-Predict2-14B-Text2Image"
pipe = Cosmos2TextToImagePipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipe.to("cuda")
prompt = "A beautiful sunset over the ocean"
negative_prompt = "Low quality, blurry"
output = pipe(
prompt=prompt, negative_prompt=negative_prompt, generator=torch.Generator().manual_seed(1)
).images[0]
output.save("sunset_high_quality.png")
📚 ドキュメント
モデル概要
説明
Cosmos-Predict2は、物理AI開発のために物理現象を考慮した画像、ビデオ、世界状態を生成するために特別に構築された、高性能な事前学習済み世界基礎モデルのファミリーです。
モデルバージョン
Cosmos-Predict2拡散ベースのモデルファミリーには、以下のモデルが含まれます。
- Cosmos-Predict2-2B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
- Cosmos-Predict2-14B-Text2Image
- テキスト記述を入力として、出力画像を予測します。
- Cosmos-Predict2-2B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、未来のフレームを予測します。
- Cosmos-Predict2-14B-Video2World
- テキスト記述と最初のフレームとしての画像を入力として、未来のフレームを予測します。
ライセンス
このモデルは、NVIDIA Open Model Licenseの下でリリースされています。カスタムライセンスについては、cosmos-license@nvidia.comにお問い合わせください。
NVIDIA Open Model Licenseの下で、NVIDIAは以下を確認しています。
- モデルは商用利用可能です。
- 派生モデルを自由に作成および配布することができます。
- NVIDIAは、モデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。
⚠️ 重要提示
モデルに含まれる技術的制限、セーフティガードレールまたは関連するセーフティガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル著作権管理、または認証メカニズムを回避、無効化、効果を低下させる、または迂回した場合、NVIDIA Open Model License Agreementに基づくあなたの権利は自動的に終了します。
デプロイメント地域
グローバル
モデルアーキテクチャ
Cosmos-Predict2-14B-Text2Imageは、潜在空間での画像ノイズ除去のために設計された拡散トランスフォーマーモデルです。ネットワークは、交互に配置された自己注意、交差注意、およびフィードフォワードレイヤーを構成要素としています。交差注意レイヤーにより、モデルはノイズ除去プロセス全体で入力テキストを条件とすることができます。各レイヤーの前に、適応的レイヤー正規化が適用され、ノイズ除去のための時間情報が埋め込まれます。
入力/出力仕様
入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 一次元 (1D)
- 入力に関連するその他のプロパティ:
- 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを提供する必要があります。
出力
- 出力タイプ: 画像
- 出力形式: jpg
- 出力パラメータ: 二次元 (2D)
- 出力に関連するその他のプロパティ: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGBカラーです。画像内容は入力テキスト記述を視覚化し、指定された時間制約内で主要な要素を捉えます。
ソフトウェア統合
ランタイムエンジン
サポートされるハードウェアマイクロアーキテクチャ互換性
- NVIDIA Ampere
- NVIDIA Blackwell
- NVIDIA Hopper
⚠️ 重要提示
テストされているのはBF16精度のみです。FP16やFP32などの他の精度は公式にサポートされていません。
推論
アクセラレーションエンジン
オペレーティングシステム
- Linux (他のオペレーティングシステムでのテストは行っていません。)
システム要件とパフォーマンス
このモデルには48.93 GBのGPU VRAMが必要です。以下の表は、さまざまなNVIDIA GPUハードウェアでの単一生成の推論時間を示しています。
GPUハードウェア | 推論実行時間 |
---|---|
NVIDIA GB200 | 8.5秒 |
NVIDIA B200 | 8.68秒 |
NVIDIA RTX PRO 6000 Workstation Edition | 24.16秒 |
NVIDIA DGX Spark | 138.94秒 |
NVIDIA H200 SXM | 15.96秒 |
NVIDIA H200 NVL | 16.95秒 |
NVIDIA H100 PCIe | 23.83秒 |
NVIDIA H100 NVL | 23.97秒 |
NVIDIA H20 | 59.59秒 |
NVIDIA L40S | (OOM) |
NVIDIA RTX 6000 Ada Generation | 167.86秒 |
品質ベンチマーク
比較評価のために、GenEval評価フレームワークからのベンチマークスコアを提示します。
方法 | 全体 | 単一オブジェクト | 二つのオブジェクト | カウント | 色 | 位置 | 色の属性 |
---|---|---|---|---|---|---|---|
Stable Diffusion XL | 0.55 | 0.98 | 0.74 | 0.39 | 0.85 | 0.15 | 0.23 |
DALL-E 3 | 0.67 | 0.96 | 0.87 | 0.47 | 0.83 | 0.43 | 0.45 |
Flux 1-Dev | 0.66 | 0.98 | 0.79 | 0.73 | 0.77 | 0.22 | 0.45 |
Cosmos-Predict2-2B-Text2Image | 0.83 | 1.00 | 0.99 | 0.73 | 0.89 | 0.65 | 0.73 |
Cosmos-Predict2-14B-Text2Image | 0.84 | 1.00 | 0.98 | 0.79 | 0.90 | 0.64 | 0.72 |
利用方法
詳細については、Cosmos-Predict2を参照してください。
制限事項
物理AIの世界生成においてさまざまな改善が行われているにもかかわらず、Cosmos-Predict2のテキストから画像へのモデルは、世界予測に関して依然として技術的およびアプリケーション上の制限に直面しています。特に、アーティファクトのない高解像度画像の生成に苦労します。一般的な問題には、カメラやオブジェクトの動きの不安定さ、および不正確な相互作用が含まれます。モデルは、生成された画像において3D空間や物理法則を不正確に表現する可能性があり、非現実的な相互作用や不合理な動きなどのアーティファクトを引き起こします。その結果、物理法則に基づく環境や複雑なマルチエージェントダイナミクスをシミュレートする必要があるアプリケーションにこれらのモデルを適用することは依然として困難です。
倫理的考慮事項
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。
ユーザーは、モデルの入力と出力に責任があります。ユーザーは、このモデルの安全な統合を確保する責任があり、デプロイ前にガードレールやその他の安全メカニズムを実装する必要があります。
このモデルの倫理的考慮事項の詳細については、以下の説明可能性、バイアス、安全性とセキュリティ、およびプライバシーのサブカードを参照してください。
🔧 技術詳細
モデルアーキテクチャ
Cosmos-Predict2-14B-Text2Imageは、潜在空間での画像ノイズ除去のために設計された拡散トランスフォーマーモデルです。ネットワークは、交互に配置された自己注意、交差注意、およびフィードフォワードレイヤーを構成要素としています。交差注意レイヤーにより、モデルはノイズ除去プロセス全体で入力テキストを条件とすることができます。各レイヤーの前に、適応的レイヤー正規化が適用され、ノイズ除去のための時間情報が埋め込まれます。
入力/出力仕様
入力
- 入力タイプ: テキスト
- 入力形式: 文字列
- 入力パラメータ: 一次元 (1D)
- 入力に関連するその他のプロパティ:
- 入力文字列は300語未満で、世界生成のための記述的な内容、例えばシーンの説明、主要なオブジェクトやキャラクター、背景、および5秒間の期間内に描写される特定のアクションや動きを提供する必要があります。
出力
- 出力タイプ: 画像
- 出力形式: jpg
- 出力パラメータ: 二次元 (2D)
- 出力に関連するその他のプロパティ: デフォルトでは、生成される画像は1280x704ピクセルの解像度とRGBカラーです。画像内容は入力テキスト記述を視覚化し、指定された時間制約内で主要な要素を捉えます。
📄 ライセンス
このモデルは、NVIDIA Open Model Licenseの下でリリースされています。カスタムライセンスについては、cosmos-license@nvidia.comにお問い合わせください。









