M

Moe LLaVA Qwen 1.8B 4e

由LanguageBind開發
MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型,通過稀疏激活參數實現高效的多模態學習
下載量 176
發布時間 : 1/23/2024

模型概述

MoE-LLaVA結合了視覺和語言理解能力,採用專家混合架構實現高效的多模態交互,在減少參數量的同時保持高性能

模型特點

高效參數利用
僅需30億稀疏激活參數即可達到7B密集模型的性能
快速訓練
在8張V100顯卡上2天內完成訓練
卓越性能
在多項視覺理解任務上超越更大規模的模型

模型能力

視覺問答
圖像理解
多模態推理
物體識別
圖像描述生成

使用案例

智能助手
圖像內容問答
回答用戶關於圖像內容的各類問題
在物體幻覺基準測試中超越LLaVA-1.5-13B
內容理解
複雜場景理解
理解包含多個對象的複雜場景圖像
在多項視覺理解數據集上達到LLaVA-1.5-7B相當水平
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase