M

Minivla Wrist Vq Libero90 Prismatic

由Stanford-ILIAD開發
MiniVLA是一個視覺語言動作模型,專注於機器人技術領域,支持圖像文本到文本的多模態任務。
下載量 18
發布時間 : 12/12/2024

模型概述

MiniVLA是一個10億參數的視覺語言動作模型,專為機器人技術設計,能夠處理圖像和文本輸入並生成文本輸出。該模型兼容Prismatic VLMs訓練腳本,適合完整微調。

模型特點

兼容Prismatic訓練腳本
採用與Prismatic VLMs項目代碼庫兼容的格式,便於使用原生PyTorch FSDP進行完整微調
多模態處理能力
能夠同時處理圖像和文本輸入,生成文本輸出
機器人技術優化
專為機器人技術應用場景設計和優化

模型能力

圖像理解
文本生成
多模態處理
機器人控制

使用案例

機器人技術
視覺語言導航
機器人根據視覺和語言指令進行導航
多模態交互
機器人理解視覺和語言輸入並做出相應反應
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase