M

Minivla Vq Libero90 Prismatic

由Stanford-ILIAD開發
MiniVLA是一個輕量級的視覺語言模型,兼容Prismatic VLMs訓練框架,支持圖像文本到文本的多模態任務。
下載量 31
發布時間 : 12/11/2024

模型概述

MiniVLA是一個預訓練的多模態視覺語言模型,專注於圖像文本到文本的任務。該模型兼容Prismatic VLMs訓練框架,適合進行完整微調。

模型特點

兼容Prismatic訓練框架
可直接使用Prismatic VLMs項目代碼庫進行完整微調
輕量級設計
相比大型視覺語言模型,參數規模更小但性能優異
多模態能力
能夠處理圖像和文本的聯合理解與生成任務

模型能力

圖像理解
文本生成
多模態推理
視覺問答

使用案例

機器人技術
視覺導航指令理解
幫助機器人理解視覺場景並生成相應動作指令
內容生成
圖像描述生成
根據輸入圖像生成自然語言描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase