MiniVLA開源視覺語言模型 - 免費支持圖像文本到文本多模態任務

Home

Minivla Vq Libero90 Prismatic

Developed by Stanford-ILIAD

MiniVLA是一個輕量級的視覺語言模型，兼容Prismatic VLMs訓練框架，支持圖像文本到文本的多模態任務。

圖像生成文本

Transformers

EnglishOpen Source License:MIT #多模態預訓練 #視覺語言理解 #機器人技術

Downloads 31

Release Time : 12/11/2024

Model Overview

MiniVLA是一個預訓練的多模態視覺語言模型，專注於圖像文本到文本的任務。該模型兼容Prismatic VLMs訓練框架，適合進行完整微調。

Model Features

兼容Prismatic訓練框架

可直接使用Prismatic VLMs項目代碼庫進行完整微調

輕量級設計

相比大型視覺語言模型，參數規模更小但性能優異

多模態能力

能夠處理圖像和文本的聯合理解與生成任務

Model Capabilities

圖像理解

文本生成

多模態推理

視覺問答

Use Cases

機器人技術

視覺導航指令理解

幫助機器人理解視覺場景並生成相應動作指令

內容生成

圖像描述生成

根據輸入圖像生成自然語言描述

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Minivla Vq Libero90 Prismatic

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 MiniVLA VQ 1B（與Prismatic兼容版本）

🚀 快速開始

使用說明

📄 許可證

📚 詳細文檔

引用