O

Openvla 7b Prismatic

Developed by openvla
OpenVLA 7B是一个开源的视觉语言动作模型,兼容Prismatic VLMs训练脚本格式,支持完全微调75亿参数。
Downloads 156
Release Time : 7/8/2024

Model Overview

OpenVLA 7B是一个多模态预训练模型,专注于视觉语言动作任务,能够处理图像文本到文本的转换。

Model Features

兼容Prismatic训练脚本
支持使用Prismatic VLMs训练脚本进行完全微调,适合需要全参数训练的场景。
多模态能力
结合视觉和语言处理能力,能够理解和生成与图像相关的文本内容。
大规模预训练
基于75亿参数的预训练模型,具备强大的特征提取和生成能力。

Model Capabilities

图像理解
文本生成
多模态推理
视觉语言动作任务处理

Use Cases

机器人技术
机器人视觉指令理解
通过图像和文本输入指导机器人执行任务
多模态交互
图像描述生成
根据输入的图像生成详细的文本描述
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase