M

Minivla Libero90 Prismatic

由Stanford-ILIAD開發
MiniVLA是一個10億參數規模的視覺語言模型,與稜鏡視覺語言模型項目代碼庫兼容,適用於機器人技術和多模態任務。
下載量 127
發布時間 : 12/11/2024

模型概述

MiniVLA是一個高效的視覺語言模型,支持圖像文本到文本的轉換,適用於多模態任務和機器人技術應用。該模型與稜鏡視覺語言模型項目代碼庫兼容,便於完整微調。

模型特點

稜鏡兼容
與稜鏡視覺語言模型項目代碼庫兼容,便於使用原生PyTorch全分片數據並行(FSDP)進行完整微調。
高效多模態
支持圖像和文本的多模態處理,適用於複雜的視覺語言任務。
參數高效
10億參數規模,在保持性能的同時減少計算資源需求。

模型能力

圖像文本轉換
多模態處理
機器人視覺語言任務

使用案例

機器人技術
視覺語言導航
幫助機器人理解視覺輸入並生成相應的文本指令。
多模態交互
支持機器人與人類通過視覺和語言進行交互。
多模態應用
圖像描述生成
根據輸入圖像生成詳細的文本描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase