M

Moe LLaVA Qwen 1.8B 4e

Developed by LanguageBind
MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型,通過稀疏激活參數實現高效的多模態學習
Downloads 176
Release Time : 1/23/2024

Model Overview

MoE-LLaVA結合了視覺和語言理解能力,採用專家混合架構實現高效的多模態交互,在減少參數量的同時保持高性能

Model Features

高效參數利用
僅需30億稀疏激活參數即可達到7B密集模型的性能
快速訓練
在8張V100顯卡上2天內完成訓練
卓越性能
在多項視覺理解任務上超越更大規模的模型

Model Capabilities

視覺問答
圖像理解
多模態推理
物體識別
圖像描述生成

Use Cases

智能助手
圖像內容問答
回答用戶關於圖像內容的各類問題
在物體幻覺基準測試中超越LLaVA-1.5-13B
內容理解
複雜場景理解
理解包含多個對象的複雜場景圖像
在多項視覺理解數據集上達到LLaVA-1.5-7B相當水平
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase