L

Llama3 Mova 8b

由zongzhuofan開發
MoVA-8B是一個開源的多模態大語言模型,採用從粗到細的機制,自適應地路由和融合特定任務的視覺專家模塊,可用於多模態模型和聊天機器人的研究。
下載量 835
發布時間 : 6/28/2024

模型概述

MoVA-8B是一個多模態大語言模型,結合了多種視覺編碼器和強大的基礎語言模型,支持多模態融合和視覺問答等任務。

模型特點

多模態融合
採用從粗到細的機制,自適應地路由和融合特定任務的視覺專家模塊。
豐富的視覺編碼器
集成了OpenAI-CLIP-336px、DINOv2-giant等多種視覺編碼器。
強大的基礎大語言模型
基於meta-llama/Meta-Llama-3-8B-Instruct,具備強大的語言理解和生成能力。

模型能力

多模態融合
視覺問答
文本生成
圖像分析
視覺定位

使用案例

多模態研究
多模態聊天機器人
用於構建支持圖像和文本交互的聊天機器人。
視覺問答
文檔理解
用於解析和理解文檔內容,支持DocVQA等任務。
DocVQA準確率83.4
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase