オープンソースのOpenVLA - OFTモデル - ビジュアル言語アクション能力を微調整最適化し、性能と速度を向上させる

ホーム

Openvla 7b Oft Finetuned Libero Goal

moojinkによって開発

OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの性能と速度を大幅に向上させています。

マルチモーダル融合

Transformers

オープンソースライセンス:MIT #ロボット動作生成 #視覚言語動作モデル #最適化微調整技術

ダウンロード数 579

リリース時間 : 2/25/2025

モデル概要

このモデルは視覚、言語、動作生成能力を結合し、ロボットタスクに特化して最適化されており、視覚入力とタスク説明に基づいて連続した動作シーケンスを生成することができます。

モデル特徴

最適化された微調整技術

OFT(Optimized Fine - Tuning)技術を採用し、基礎モデルに比べて著しい性能向上が見られます

マルチモーダル入力処理

視覚画像、言語説明、自己知覚状態入力を同時に処理することができます

連続動作生成

MLP動作ヘッドにより連続したロボット動作シーケンスを生成します

モデル能力

視覚 - 言語理解

連続動作予測

ロボットタスク実行

マルチモーダルデータ融合

使用事例

ロボット制御

空間タスク実行

視覚入力とタスク説明に基づいて空間操作タスクを完了します

LIBERO - Goalタスクで基礎モデルよりも優れた性能を発揮します

🚀 Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

このリポジトリには、Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Successで説明されているLIBERO-Goal用のOpenVLA-OFTチェックポイントが含まれています。OpenVLA-OFTは、最適化されたファインチューニング手法を組み込むことで、ベースのOpenVLAモデルを大幅に改善しています。

プロジェクトページ: https://openvla-oft.github.io/

コード: https://github.com/openvla-oft/openvla-oft

他のOpenVLA-OFTチェックポイントはこちら: https://huggingface.co/moojink?search_models=oft

🚀 クイックスタート

この例では、事前学習済みのOpenVLA-OFTチェックポイントを使用してアクションチャンクを生成する方法を示しています。GitHubのREADMEに記載されているようにconda環境をセットアップしてください。

import pickle
from experiments.robot.libero.run_libero_eval import GenerateConfig
from experiments.robot.openvla_utils import get_action_head, get_processor, get_proprio_projector, get_vla, get_vla_action
from prismatic.vla.constants import NUM_ACTIONS_CHUNK, PROPRIO_DIM
# Instantiate config (see class GenerateConfig in experiments/robot/libero/run_libero_eval.py for definitions)
cfg = GenerateConfig(
    pretrained_checkpoint = "moojink/openvla-7b-oft-finetuned-libero-spatial",
    use_l1_regression = True,
    use_diffusion = False,
    use_film = False,
    num_images_in_input = 2,
    use_proprio = True,
    load_in_8bit = False,
    load_in_4bit = False,
    center_crop = True,
    num_open_loop_steps = NUM_ACTIONS_CHUNK,
    unnorm_key = "libero_spatial_no_noops",
)
# Load OpenVLA-OFT policy and inputs processor
vla = get_vla(cfg)
processor = get_processor(cfg)
# Load MLP action head to generate continuous actions (via L1 regression)
action_head = get_action_head(cfg, llm_dim=vla.llm_dim)
# Load proprio projector to map proprio to language embedding space
proprio_projector = get_proprio_projector(cfg, llm_dim=vla.llm_dim, proprio_dim=PROPRIO_DIM)

# Load sample observation:
#   observation (dict): {
#     "full_image": primary third-person image,
#     "wrist_image": wrist-mounted camera image,
#     "state": robot proprioceptive state,
#     "task_description": task description,
#   }
with open("experiments/robot/libero/sample_libero_spatial_observation.pkl", "rb") as file:
    observation = pickle.load(file)
# Generate robot action chunk (sequence of future actions)
actions = get_vla_action(cfg, vla, processor, observation, observation["task_description"], action_head, proprio_projector)
print("Generated action chunk:")
for act in actions:
    print(act)

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 引用

@article{kim2025fine,
  title={Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success},
  author={Kim, Moo Jin and Finn, Chelsea and Liang, Percy},
  journal={arXiv preprint arXiv:2502.19645},
  year={2025}
}