OpenVLA 7B視覺語言動作模型 - 基於LIBERO-Spatial微調，開源實用！

Openvla 7b Finetuned Libero Spatial

由openvla開發

在LIBERO-Spatial數據集上使用LoRA微調的OpenVLA 7B視覺語言動作模型

下載量 4,009

發布時間 : 9/3/2024

模型概述

這是一個多模態視覺語言動作模型，專為機器人技術設計，能夠處理圖像和文本輸入並生成相應的動作指令。

LIBERO-Spatial數據集微調

專門針對機器人空間任務優化的模型性能

LoRA高效微調

使用秩為32的LoRA進行參數高效微調，保持原始模型能力的同時適應新任務

多模態處理能力

能夠同時處理視覺和語言輸入，輸出動作指令

視覺語言理解

機器人動作生成

多模態推理

空間任務處理

機器人控制

空間導航任務

根據視覺輸入和文本指令生成機器人導航動作

在LIBERO-Spatial基準測試中表現良好

物體操作任務

結合視覺和語言輸入完成物體抓取和放置任務

屬性	詳情
硬件	8個顯存為80GB的A100 GPU
LoRA微調參數	`use_lora == True`, `lora_rank == 32`, `lora_dropout == 0.0`
學習率	5e - 4
批量大小	128（8個GPU，每個GPU 16個樣本）
訓練梯度步數	50K
訓練和測試時量化情況	無量化
梯度累積情況	無梯度累積（即`grad_accumulation_steps == 1`）
打亂緩衝區大小	100_000
圖像增強	隨機裁剪、顏色抖動（詳情見訓練代碼）