M

Minivla Vq Libero90 Prismatic

Developed by Stanford-ILIAD
MiniVLA是一個輕量級的視覺語言模型,兼容Prismatic VLMs訓練框架,支持圖像文本到文本的多模態任務。
Downloads 31
Release Time : 12/11/2024

Model Overview

MiniVLA是一個預訓練的多模態視覺語言模型,專注於圖像文本到文本的任務。該模型兼容Prismatic VLMs訓練框架,適合進行完整微調。

Model Features

兼容Prismatic訓練框架
可直接使用Prismatic VLMs項目代碼庫進行完整微調
輕量級設計
相比大型視覺語言模型,參數規模更小但性能優異
多模態能力
能夠處理圖像和文本的聯合理解與生成任務

Model Capabilities

圖像理解
文本生成
多模態推理
視覺問答

Use Cases

機器人技術
視覺導航指令理解
幫助機器人理解視覺場景並生成相應動作指令
內容生成
圖像描述生成
根據輸入圖像生成自然語言描述
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase