OpenVLA 7B开源视觉语言动作模型 - 免费部署，支持75亿参数完全微调！

首页

Openvla 7b Prismatic

由 openvla 开发

OpenVLA 7B是一个开源的视觉语言动作模型，兼容Prismatic VLMs训练脚本格式，支持完全微调75亿参数。

图像生成文本

Transformers

英语开源协议:MIT #视觉语言动作控制 #多模态预训练 #机器人指令生成

下载量 156

发布时间 : 7/8/2024

模型简介

OpenVLA 7B是一个多模态预训练模型，专注于视觉语言动作任务，能够处理图像文本到文本的转换。

模型特点

兼容Prismatic训练脚本

支持使用Prismatic VLMs训练脚本进行完全微调，适合需要全参数训练的场景。

多模态能力

结合视觉和语言处理能力，能够理解和生成与图像相关的文本内容。

大规模预训练

基于75亿参数的预训练模型，具备强大的特征提取和生成能力。

模型能力

图像理解

文本生成

多模态推理

视觉语言动作任务处理

使用案例

机器人技术

机器人视觉指令理解

通过图像和文本输入指导机器人执行任务

多模态交互

图像描述生成

根据输入的图像生成详细的文本描述

🚀 OpenVLA 7B（兼容 Prismatic 版本）

OpenVLA 7B（兼容 Prismatic 版本）是一个多模态的图像 - 文本到文本模型，可应用于机器人技术等领域。此版本与原始 Prismatic VLMs 项目代码库的训练脚本兼容，为模型的全量微调提供了便利。

🚀 快速开始

这一版本的模型与 OpenVLA 7B 模型本质相同，区别在于该检查点的格式与原始 Prismatic VLMs 项目代码库的训练脚本兼容，OpenVLA 团队正是基于此代码库开发了 OpenVLA 模型。OpenVLA 7B 模型的详细信息请见：https://huggingface.co/openvla/openvla-7b。

如果你希望通过原生 PyTorch 全分片数据并行（FSDP），使用 Prismatic VLMs 训练脚本对 OpenVLA 进行 全量微调（全部 75 亿参数），那么这个与 Prismatic 兼容的检查点会很有用。如果你想通过 LoRA 进行参数高效微调，可以使用上面链接的 OpenVLA 检查点，它与 Hugging Face 的 transformers 库兼容。如果没有足够的计算资源来全量微调一个 70 亿参数的模型（例如，多个 A100/H100 GPU），我们建议通过 LoRA 进行微调。

📚 详细文档

关于如何使用此检查点进行全量微调的说明，请参阅 OpenVLA GitHub 自述文件。

📄 许可证

本项目采用 MIT 许可证。

📖 引用

如果你使用了该模型，请按照以下格式引用： BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}

信息表格

属性	详情
模型类型	图像 - 文本到文本
标签	机器人技术、vla、图像 - 文本到文本、多模态、预训练
许可证	MIT
语言	英文
管道标签	图像 - 文本到文本