C

Cosmos 1.0 Diffusion 7B Text2World

Developed by nvidia
NVIDIAが開発した拡散アーキテクチャに基づくマルチモーダル世界ファウンデーションモデルで、テキスト入力に基づいて高品質な物理知覚ビデオを生成可能
Downloads 5,011
Release Time : 1/7/2025

Model Overview

Cosmosは物理知覚ビデオ生成と物理AI開発のために設計された高性能事前学習済み世界ファウンデーションモデルシリーズで、テキスト、画像、ビデオ入力をサポートし動的ビデオを生成

Model Features

マルチモーダル入力サポート
テキスト、画像、ビデオを入力条件として一貫性のあるビデオシーケンスを生成可能
物理知覚生成
生成されるビデオは物理的に妥当で、物理AI開発アプリケーションに適している
商用フレンドリーライセンス
商用利用と派生モデルの作成を許可し、NVIDIAは出力内容に対する所有権を主張しない
安全ガードメカニズム
不適切なコンテンツ生成を防止する組み込み安全コンポーネントがあり、回避メカニズムはライセンス終了につながる

Model Capabilities

テキストからビデオ生成
ビデオ予測(初フレームベース)
マルチ解像度出力
可変フレームレート制御

Use Cases

エンターテインメントメディア
ショートビデオコンテンツ生成
脚本の記述に基づいて自動的にショートビデオコンテンツを生成
5秒1280x704解像度ビデオ
物理シミュレーション
物理現象予測
初期状態に基づいて物体の運動軌跡を予測
120フレーム物理的に妥当な運動シーケンス
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase