MobileVLM-3B開源多模態視覺語言模型 - 適配移動設備高效跨模態交互

首頁

Mobilevlm 3B

由mtgv開發

MobileVLM是一款專為移動設備設計的快速、強大的多模態視覺語言模型，支持高效的跨模態交互。

文本生成圖像

Transformers

開源協議:Apache-2.0 #移動端多模態 #高效視覺語言 #低延遲推理

下載量 346

發布時間 : 12/31/2023

模型概述

MobileVLM是一款專為在移動設備上運行而設計的多模態視覺語言模型（MMVLM），融合了多種面向移動設備的架構設計和技術，包含從頭開始訓練的14億和27億參數的語言模型、以CLIP方式預訓練的多模態視覺模型，以及通過高效投影器實現的跨模態交互。

模型特點

移動設備優化

專為移動設備設計，融合多種面向移動設備的架構設計和技術

高效推理

在高通驍龍888 CPU和英偉達Jeston Orin GPU上分別達到每秒21.5個和65.3個token的推理速度

多模態交互

通過高效投影器實現視覺與語言模態的高效交互

性能優異

在多個典型VLM基準測試中表現與一些更大的模型相當

易於部署

基於MobileLLaMA-2.7B-Chat構建，便於即插即用的部署

模型能力

視覺語言理解

跨模態交互

移動端高效推理

圖像文本關聯

使用案例

移動應用

移動端視覺問答

在移動設備上實現高效的圖像理解和問答功能

每秒21.5-65.3個token的推理速度

智能助手

為移動設備提供多模態交互的智能助手功能

嵌入式設備

邊緣計算

在資源受限的邊緣設備上實現視覺語言處理

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Mobilevlm 3B

模型概述

模型特點

模型能力

使用案例

🚀 MobileVLM

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型來源

訓練細節

📄 許可證