license: other
license_name: nvidia-open-model-license
license_link: >-
https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license
datasets:
- nvidia/Cosmos-Reason1-SFT-Dataset
- nvidia/Cosmos-Reason1-RL-Dataset
- nvidia/Cosmos-Reason1-Benchmark
library_name: transformers
language:
- en
base_model:
- Qwen/Qwen2.5-VL-7B-Instruct
tags:
- nvidia
- cosmos
Cosmos-Reason1: 物理AIコモンセンスと具現化推論モデル
Cosmos | コード | 論文 | 論文ウェブサイト
モデル概要
説明:
Cosmos-Reason1モデル: 物理AIモデルは物理的なコモンセンスを理解し、長い思考連鎖プロセスを通じて自然言語で適切な具現化決定を生成します。
Cosmos-Reason1モデルは、教師あり微調整と強化学習を用いて物理的コモンセンスと具現化推論データで追加学習されています。これらは空間、時間、基礎物理学を理解できる物理AIモデルであり、具現化エージェントの次のステップを推論する計画モデルとして機能できます。
モデルは商用利用可能です。
モデル開発者: NVIDIA
モデルバージョン
Cosmos-Reason1には以下のモデルが含まれます:
ライセンス:
このモデルはNVIDIA Open Model Licenseのもとでリリースされています。カスタムライセンスについては、cosmos-license@nvidia.comまでお問い合わせください。
NVIDIA Open Model Licenseのもとで、NVIDIAは以下を確認します:
- モデルは商用利用可能です。
- 派生モデルを作成・配布する自由があります。
- NVIDIAはモデルまたは派生モデルを使用して生成された出力に対する所有権を主張しません。
重要な注意事項: 技術的制限、安全ガードレールまたは関連する安全ガードレールハイパーパラメータ、暗号化、セキュリティ、デジタル著作権管理、または認証メカニズム(総称して「ガードレール」)をバイパス、無効化、効力を減退、または回避する場合、NVIDIA Open Model License Agreementに基づく権利は自動的に終了します。
展開地域:
全世界
使用事例:
物理AI: 空間、時間、基礎物理学の理解と具現化推論、ロボティクス、自動運転車(AV)を含みます。
リリース日:
モデルアーキテクチャ:
アーキテクチャタイプ: ビジョンエンコーダー用のVision Transformer(ViT)とLLM用のDense TransformerモデルからなるマルチモーダルLLM。
ネットワークアーキテクチャ: Qwen2.5-VL-7B-Instruct。
Cosmos-Reason-7BはQwen2.5-VL-7B-Instructを基に追加学習されており、同じモデルアーキテクチャに従います。
入力
入力タイプ: テキスト+動画/画像
入力形式:
- テキスト: 文字列
- 動画: mp4
- 画像: jpg
入力パラメータ:
- テキスト: 1次元(1D)
- 動画: 3次元(3D)
- 画像: 2次元(2D)
入力関連のその他のプロパティ:
- 学習設定に合わせるため、入力動画には
FPS=4
を使用してください。
- 長い思考連鎖応答を促すため、システムプロンプトに
Answer the question in the following format: <think>\nyour reasoning\n</think>\n\n<answer>\nyour answer\n</answer>.
を追加してください。
出力
出力タイプ: テキスト
出力形式: 文字列
出力パラメータ: テキスト: 1次元(1D)
出力関連のその他のプロパティ:
- 長い思考連鎖応答が切り捨てられないよう、4096以上の出力最大トークンを使用することを推奨します。
- 当社のAIモデルは、NVIDIA GPUアクセラレーテッドシステムで動作するよう設計および/または最適化されています。NVIDIAのハードウェア(例:GPUコア)とソフトウェアフレームワーク(例:CUDAライブラリ)を活用することで、CPUのみのソリューションと比較してより高速な学習と推論時間を実現しています。
ソフトウェア統合
ランタイムエンジン:
サポート対象ハードウェアマイクロアーキテクチャ互換性:
- NVIDIA Blackwell
- NVIDIA Hopper
注記: BF16精度での推論のみテスト済みです。
オペレーティングシステム:
使用方法
詳細はCosmos-Reason1を参照してください。
評価
物理的コモンセンスと具現化推論に関する詳細な評価については、技術論文をご覧ください。評価データセットの一部はCosmos-Reason1-Benchmarkで公開されています。具現化推論データセットとベンチマークは以下の領域に焦点を当てています: ロボティクス(RoboVQA, BridgeDataV2, Agibot, RobFail)、エゴセントリック人間デモンストレーション(HoloAssist)、自動運転車(AV)運転動画データ。AVデータセットはNVIDIAによって収集・注釈付けされています。
すべてのデータセットは、技術論文で説明されているデータ注釈プロセスを経て、学習および評価データと注釈が準備されます。
データ収集方法:
- RoboVQA: ハイブリッド: 自動/センサー
- BridgeDataV2: 自動/センサー
- AgiBot: 自動/センサー
- RoboFail: 自動/センサー
- HoloAssist: 人間
- AV: 自動/センサー
ラベリング方法:
- RoboVQA: ハイブリッド: 人間、自動
- BridgeDataV2: ハイブリッド: 人間、自動
- AgiBot: ハイブリッド: 人間、自動
- RoboFail: ハイブリッド: 人間、自動
- HoloAssist: ハイブリッド: 人間、自動
- AV: ハイブリッド: 人間、自動
メトリクス:
Cosmos-Reason1で紹介された具現化推論ベンチマークにおけるモデル精度を報告します。結果は、ベンチマークを超えるより広範な物理AIタスクをサポートするための追加学習により、表9に示されたものとは異なります。
データセット形式
モダリティ: 動画(mp4)とテキスト
データセット定量化
具現化推論データとベンチマークを公開しています。各データサンプルは動画とテキストのペアです。テキスト注釈には、Cosmos-Reason1論文で説明されている理解と推論の注釈が含まれます。各動画には複数のテキスト注釈がある場合があります。動画とテキストペアの数量は以下の表に記載されています。
AVデータは現在利用不可で、近日中にアップロード予定です!