O

Openvla 7b Oft Finetuned Libero Spatial Object Goal 10

moojinkによって開発
OpenVLA - OFTはOpenVLAモデルを最適化した視覚 - 言語 - 動作モデルで、微調整技術を通じてLIBEROタスクセット上で実行速度と成功率を大幅に向上させました。
ダウンロード数 447
リリース時間 : 4/28/2025

モデル概要

このモデルはロボットタスクの実行に特化しており、視覚と言語の入力に基づいて連続動作シーケンスを生成し、空間、物体、目標、長期タスクのシナリオに適用できます。

モデル特徴

最適化された微調整技術
OFT(Optimized Fine - Tuning)技術を採用して、ベースモデルの実行速度とタスク成功率を大幅に向上させます。
マルチタスクサポート
LIBEROタスクセットの4つのサブセット(Spatial、Object、Goal、Long)で特別に最適化されています。
マルチモーダル入力
視覚(メインカメラと腕部カメラの画像)、言語(タスク説明)、本体感覚状態のマルチモーダル入力をサポートします。

モデル能力

視覚 - 言語理解
連続動作シーケンス生成
ロボットタスク実行
マルチモーダル情報融合

使用事例

ロボット制御
空間ナビゲーションタスク
視覚入力とタスク説明に基づいて空間ナビゲーションと物体操作を完了します。
LIBERO - Spatialタスクで優れた性能を発揮します。
長期タスク実行
多段階の計画が必要な長期ロボットタスクを実行します。
LIBERO - Longタスクで良好な性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase