OpenVLA-OFT開源視覺-語言-動作模型 - 微調後提升LIBERO任務執行速度與成功率

Home

Openvla 7b Oft Finetuned Libero Spatial Object Goal 10

Developed by moojink

OpenVLA-OFT是基於OpenVLA模型優化的視覺-語言-動作模型，通過微調技術在LIBERO任務套件上顯著提升了執行速度和成功率。

多模態融合

Transformers

Open Source License:MIT #視覺-語言-動作微調 #機器人任務優化 #連續動作生成

Downloads 447

Release Time : 4/28/2025

Model Overview

該模型專注於機器人任務執行，通過視覺和語言輸入生成連續動作序列，適用於空間、物體、目標和長期任務場景。

Model Features

優化的微調技術

採用OFT（Optimized Fine-Tuning）技術顯著提升基礎模型的執行速度和任務成功率

多任務支持

在LIBERO任務套件的四個子集（Spatial、Object、Goal、Long）上進行了專門優化

多模態輸入

支持視覺（主相機和腕部相機圖像）、語言（任務描述）和本體感受狀態的多模態輸入

Model Capabilities

視覺-語言理解

連續動作序列生成

機器人任務執行

多模態信息融合

Use Cases

機器人控制

空間導航任務

根據視覺輸入和任務描述完成空間導航和物體操作

在LIBERO-Spatial任務上表現優異

長期任務執行

執行需要多步驟規劃的長期機器人任務

在LIBERO-Long任務上表現良好

🚀 微調視覺-語言-動作模型：優化速度與成功率

本項目包含在4個LIBERO任務套件（-Spatial、-Object、-Goal、-Long）上訓練的OpenVLA - OFT檢查點，具體內容可參考論文Fine - Tuning Vision - Language - Action Models: Optimizing Speed and Success。OpenVLA - OFT通過採用優化的微調技術，在基礎OpenVLA模型的基礎上有顯著提升。

項目頁面：https://openvla-oft.github.io/

代碼倉庫：https://github.com/openvla-oft/openvla-oft

其他OpenVLA - OFT檢查點請見：https://huggingface.co/moojink?search_models=oft

🚀 快速開始

此示例展示瞭如何使用預訓練的OpenVLA - OFT檢查點生成動作塊。請確保你已按照GitHub README中的說明設置好conda環境。

import pickle
from experiments.robot.libero.run_libero_eval import GenerateConfig
from experiments.robot.openvla_utils import get_action_head, get_processor, get_proprio_projector, get_vla, get_vla_action
from prismatic.vla.constants import NUM_ACTIONS_CHUNK, PROPRIO_DIM
# 實例化配置（配置定義見experiments/robot/libero/run_libero_eval.py中的GenerateConfig類）
cfg = GenerateConfig(
    pretrained_checkpoint = "moojink/openvla-7b-oft-finetuned-libero-spatial",
    use_l1_regression = True,
    use_diffusion = False,
    use_film = False,
    num_images_in_input = 2,
    use_proprio = True,
    load_in_8bit = False,
    load_in_4bit = False,
    center_crop = True,
    num_open_loop_steps = NUM_ACTIONS_CHUNK,
    unnorm_key = "libero_spatial_no_noops",
)
# 加載OpenVLA-OFT策略和輸入處理器
vla = get_vla(cfg)
processor = get_processor(cfg)
# 加載MLP動作頭以生成連續動作（通過L1迴歸）
action_head = get_action_head(cfg, llm_dim=vla.llm_dim)
# 加載本體感受投影儀以將本體感受映射到語言嵌入空間
proprio_projector = get_proprio_projector(cfg, llm_dim=vla.llm_dim, proprio_dim=PROPRIO_DIM)

# 加載示例觀察數據：
#   observation (dict): {
#     "full_image": 主第三人稱圖像,
#     "wrist_image": 腕部安裝相機圖像,
#     "state": 機器人本體感受狀態,
#     "task_description": 任務描述,
#   }
with open("experiments/robot/libero/sample_libero_spatial_observation.pkl", "rb") as file:
    observation = pickle.load(file)
# 生成機器人動作塊（未來動作序列）
actions = get_vla_action(cfg, vla, processor, observation, observation["task_description"], action_head, proprio_projector)
print("Generated action chunk:")
for act in actions:
    print(act)

📄 許可證

本項目採用MIT許可證。

📚 引用信息

@article{kim2025fine,
  title={Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success},
  author={Kim, Moo Jin and Finn, Chelsea and Liang, Percy},
  journal={arXiv preprint arXiv:2502.19645},
  year={2025}
}