O

Openvla 7b Prismatic

由 openvla 开发
OpenVLA 7B是一个开源的视觉语言动作模型,兼容Prismatic VLMs训练脚本格式,支持完全微调75亿参数。
下载量 156
发布时间 : 7/8/2024

模型简介

OpenVLA 7B是一个多模态预训练模型,专注于视觉语言动作任务,能够处理图像文本到文本的转换。

模型特点

兼容Prismatic训练脚本
支持使用Prismatic VLMs训练脚本进行完全微调,适合需要全参数训练的场景。
多模态能力
结合视觉和语言处理能力,能够理解和生成与图像相关的文本内容。
大规模预训练
基于75亿参数的预训练模型,具备强大的特征提取和生成能力。

模型能力

图像理解
文本生成
多模态推理
视觉语言动作任务处理

使用案例

机器人技术
机器人视觉指令理解
通过图像和文本输入指导机器人执行任务
多模态交互
图像描述生成
根据输入的图像生成详细的文本描述
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase