O

Openvla 7b

openvlaによって開発
OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。
ダウンロード数 1.7M
リリース時間 : 6/10/2024

モデル概要

OpenVLA 7Bはマルチモーダルモデルで、言語命令とロボット作業空間のカメラ画像を入力として受け取り、7自由度エンドエフェクタの変位量を予測します。さまざまなロボット制御をサポートし、微調整によって新しいロボット領域に迅速に適応できます。

モデル特徴

マルチロボットサポート
プリトレーニングされた混合データに含まれる複数のロボットをそのまま制御可能
パラメータ効率的な微調整
少数のデモデータで効率的に微調整し、新しいタスクやロボット設定に適応可能
オープンソーストレーニングコード
完全なトレーニングコードライブラリがMITライセンスで公開され、カスタムトレーニングをサポート
マルチモーダル入力
言語命令と視覚入力を同時に処理し、正確なロボット動作を生成

モデル能力

ロボット動作予測
視覚言語理解
マルチモーダルタスク処理
ロボット制御

使用事例

ロボット制御
Widow-Xロボット制御
BridgeV2環境でWidow-Xロボットを制御し命令を実行
ゼロショットでプリトレーニング混合データに含まれるタスクを実行
新規ロボット適応
少数のデモデータで微調整し新しいロボット設定に適応
新しいタスクやロボット環境に迅速に適応
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase