🚀 OpenVLA v0.1 7B
OpenVLA v0.1 7B是一個開源的視覺 - 語言 - 動作模型,它基於Open X - Embodiment數據集進行訓練。該模型以語言指令和相機圖像作為輸入,能夠生成機器人動作,可直接控制多種機器人,還能通過(參數高效)微調快速適配新的機器人領域。
注意事項
OpenVLA v0.1是我們為開發目的而訓練的早期模型;若需獲取我們的最佳模型,請查看[openvla/openvla - 7b](https://huggingface.co/openvla/openvla - 7b)。
所有OpenVLA的檢查點以及我們的訓練代碼庫均在MIT許可證下發布。如需瞭解完整詳情,請閱讀我們的論文並查看我們的項目頁面。
🚀 快速開始
OpenVLA 7B可以直接用於控制預訓練混合集中所涵蓋領域的多種機器人。以下是一個在[BridgeV2環境]中使用Widow - X機器人進行零樣本指令跟蹤的示例,用於加載openvla - v01 - 7b
:
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import torch
processor = AutoProcessor.from_pretrained("openvla/openvla-7b", trust_remote_code=True)
vla = AutoModelForVision2Seq.from_pretrained(
"openvla/openvla-v01-7b",
attn_implementation="flash_attention_2",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True
).to("cuda:0")
image: Image.Image = get_from_camera(...)
system_prompt = (
"A chat between a curious user and an artificial intelligence assistant. "
"The assistant gives helpful, detailed, and polite answers to the user's questions."
)
prompt = f"{system_prompt} USER: What action should the robot take to {<INSTRUCTION>}? ASSISTANT:"
inputs = processor(prompt, image).to("cuda:0", dtype=torch.bfloat16)
action = vla.predict_action(**inputs, unnorm_key="bridge_orig", do_sample=False)
robot.act(action, ...)
如需更多示例,包括在您自己的機器人演示數據集上微調OpenVLA模型的腳本,請查看我們的訓練倉庫。
✨ 主要特性
- 多機器人控制:可直接控制多種機器人。
- 快速適配:能通過(參數高效)微調快速適配新的機器人領域。
- 零樣本使用:可對Open - X預訓練混合集中看到的特定組合的實體和領域進行零樣本機器人控制。
📚 詳細文檔
模型概述
使用方法
OpenVLA模型以語言指令和機器人工作空間的相機圖像作為輸入,預測由7自由度末端執行器增量組成的(歸一化)機器人動作,形式為(x, y, z, 滾動, 俯仰, 偏航, 抓手)。要在實際的機器人平臺上執行,動作需要根據每個機器人、每個數據集計算的統計數據進行反歸一化。更多信息請查看我們的倉庫。
OpenVLA模型可以進行零樣本使用,以控制Open - X預訓練混合集中看到的特定實體和領域組合的機器人(例如,[帶有Widow - X機器人的BridgeV2環境](https://rail - berkeley.github.io/bridgedata/))。在給定最少的演示數據的情況下,它們還可以針對新任務和機器人設置進行高效的微調;詳情請見此處。
適用範圍說明
OpenVLA模型不能對新的(未見過的)機器人實體或預訓練混合集中未涵蓋的設置進行零樣本泛化;在這些情況下,我們建議在所需的設置上收集演示數據集,並對OpenVLA模型進行微調。
📄 許可證
本項目採用MIT許可證。
📖 引用
@article{kim24openvla,
title={OpenVLA: An Open-Source Vision-Language-Action Model},
author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
journal = {arXiv preprint arXiv:2406.09246},
year={2024}
}