🚀 OpenVLA 7B在LIBERO-Goal上微调模型
本模型是通过在LIBERO模拟基准的LIBERO-Goal数据集上使用LoRA(r = 32)对OpenVLA 7B模型进行微调得到的。为了提高最终性能,我们对训练数据集做了一些修改(详情见OpenVLA论文)。
✨ 主要特性
- 基于OpenVLA 7B模型微调,适用于机器人、图像文本到文本、多模态等领域。
- 在LIBERO-Goal数据集上进行训练,提升了模型在相关任务上的性能。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
超参数设置
以下是我们在所有LIBERO实验中使用的超参数:
- 硬件:8块显存为80GB的A100 GPU
- 使用LoRA进行微调:
use_lora == True
,lora_rank == 32
,lora_dropout == 0.0
- 学习率:5e - 4
- 批量大小:128(8块GPU,每块GPU处理16个样本)
- 训练梯度步数:60K
- 训练和测试时不进行量化
- 无梯度累积(即
grad_accumulation_steps == 1
)
shuffle_buffer_size == 100_000
- 图像增强:随机裁剪、颜色抖动(详情见训练代码)
使用说明
有关如何在LIBERO模拟器中运行和评估此模型的说明,请参阅OpenVLA GitHub README。
🔧 技术细节
本模型在LIBERO-Goal数据集上通过LoRA技术对OpenVLA 7B模型进行微调,同时对训练数据集进行了修改以提升性能。在训练过程中,使用了特定的超参数设置,如特定的学习率、批量大小等,并且不进行量化和梯度累积操作。通过这些技术手段,使得模型在相关任务上有更好的表现。
📄 许可证
本模型使用MIT许可证。
📚 引用信息
BibTeX:
@article{kim24openvla,
title={OpenVLA: An Open-Source Vision-Language-Action Model},
author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
journal = {arXiv preprint arXiv:2406.09246},
year={2024}
}
📋 模型信息表格
属性 |
详情 |
模型类型 |
基于OpenVLA 7B在LIBERO - Goal上微调的图像文本到文本模型 |
训练数据 |
LIBERO - Goal数据集,来自LIBERO模拟基准 |
微调技术 |
LoRA(r = 32) |
硬件 |
8 x A100 GPUs with 80GB memory |
学习率 |
5e - 4 |
批量大小 |
128(8 GPUs x 16 samples each) |
训练梯度步数 |
60K |
量化情况 |
训练和测试时不进行量化 |
梯度累积 |
无(grad_accumulation_steps == 1 ) |
图像增强 |
随机裁剪、颜色抖动 |