🚀 OpenVLA 7B在LIBERO-Goal上微調模型
本模型是通過在LIBERO模擬基準的LIBERO-Goal數據集上使用LoRA(r = 32)對OpenVLA 7B模型進行微調得到的。為了提高最終性能,我們對訓練數據集做了一些修改(詳情見OpenVLA論文)。
✨ 主要特性
- 基於OpenVLA 7B模型微調,適用於機器人、圖像文本到文本、多模態等領域。
- 在LIBERO-Goal數據集上進行訓練,提升了模型在相關任務上的性能。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
超參數設置
以下是我們在所有LIBERO實驗中使用的超參數:
- 硬件:8塊顯存為80GB的A100 GPU
- 使用LoRA進行微調:
use_lora == True
,lora_rank == 32
,lora_dropout == 0.0
- 學習率:5e - 4
- 批量大小:128(8塊GPU,每塊GPU處理16個樣本)
- 訓練梯度步數:60K
- 訓練和測試時不進行量化
- 無梯度累積(即
grad_accumulation_steps == 1
)
shuffle_buffer_size == 100_000
- 圖像增強:隨機裁剪、顏色抖動(詳情見訓練代碼)
使用說明
有關如何在LIBERO模擬器中運行和評估此模型的說明,請參閱OpenVLA GitHub README。
🔧 技術細節
本模型在LIBERO-Goal數據集上通過LoRA技術對OpenVLA 7B模型進行微調,同時對訓練數據集進行了修改以提升性能。在訓練過程中,使用了特定的超參數設置,如特定的學習率、批量大小等,並且不進行量化和梯度累積操作。通過這些技術手段,使得模型在相關任務上有更好的表現。
📄 許可證
本模型使用MIT許可證。
📚 引用信息
BibTeX:
@article{kim24openvla,
title={OpenVLA: An Open-Source Vision-Language-Action Model},
author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
journal = {arXiv preprint arXiv:2406.09246},
year={2024}
}
📋 模型信息表格
屬性 |
詳情 |
模型類型 |
基於OpenVLA 7B在LIBERO - Goal上微調的圖像文本到文本模型 |
訓練數據 |
LIBERO - Goal數據集,來自LIBERO模擬基準 |
微調技術 |
LoRA(r = 32) |
硬件 |
8 x A100 GPUs with 80GB memory |
學習率 |
5e - 4 |
批量大小 |
128(8 GPUs x 16 samples each) |
訓練梯度步數 |
60K |
量化情況 |
訓練和測試時不進行量化 |
梯度累積 |
無(grad_accumulation_steps == 1 ) |
圖像增強 |
隨機裁剪、顏色抖動 |