OpenVLA 7B開源視覺語言動作模型 - 免費部署，支持75億參數完全微調！

首頁

Openvla 7b Prismatic

由openvla開發

OpenVLA 7B是一個開源的視覺語言動作模型，兼容Prismatic VLMs訓練腳本格式，支持完全微調75億參數。

圖像生成文本

Transformers

英語開源協議:MIT #視覺語言動作控制 #多模態預訓練 #機器人指令生成

下載量 156

發布時間 : 7/8/2024

模型概述

OpenVLA 7B是一個多模態預訓練模型，專注於視覺語言動作任務，能夠處理圖像文本到文本的轉換。

模型特點

兼容Prismatic訓練腳本

支持使用Prismatic VLMs訓練腳本進行完全微調，適合需要全參數訓練的場景。

多模態能力

結合視覺和語言處理能力，能夠理解和生成與圖像相關的文本內容。

大規模預訓練

基於75億參數的預訓練模型，具備強大的特徵提取和生成能力。

模型能力

圖像理解

文本生成

多模態推理

視覺語言動作任務處理

使用案例

機器人技術

機器人視覺指令理解

通過圖像和文本輸入指導機器人執行任務

多模態交互

圖像描述生成

根據輸入的圖像生成詳細的文本描述

🚀 OpenVLA 7B（兼容 Prismatic 版本）

OpenVLA 7B（兼容 Prismatic 版本）是一個多模態的圖像 - 文本到文本模型，可應用於機器人技術等領域。此版本與原始 Prismatic VLMs 項目代碼庫的訓練腳本兼容，為模型的全量微調提供了便利。

🚀 快速開始

這一版本的模型與 OpenVLA 7B 模型本質相同，區別在於該檢查點的格式與原始 Prismatic VLMs 項目代碼庫的訓練腳本兼容，OpenVLA 團隊正是基於此代碼庫開發了 OpenVLA 模型。OpenVLA 7B 模型的詳細信息請見：https://huggingface.co/openvla/openvla-7b。

如果你希望通過原生 PyTorch 全分片數據並行（FSDP），使用 Prismatic VLMs 訓練腳本對 OpenVLA 進行 全量微調（全部 75 億參數），那麼這個與 Prismatic 兼容的檢查點會很有用。如果你想通過 LoRA 進行參數高效微調，可以使用上面鏈接的 OpenVLA 檢查點，它與 Hugging Face 的 transformers 庫兼容。如果沒有足夠的計算資源來全量微調一個 70 億參數的模型（例如，多個 A100/H100 GPU），我們建議通過 LoRA 進行微調。

📚 詳細文檔

關於如何使用此檢查點進行全量微調的說明，請參閱 OpenVLA GitHub 自述文件。

📄 許可證

本項目採用 MIT 許可證。

📖 引用

如果你使用了該模型，請按照以下格式引用： BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}

信息表格

屬性	詳情
模型類型	圖像 - 文本到文本
標籤	機器人技術、vla、圖像 - 文本到文本、多模態、預訓練
許可證	MIT
語言	英文
管道標籤	圖像 - 文本到文本