llama3-mova-8b開源多模態大語言模型 - 助力多模態研究與聊天機器人開發

Llama3 Mova 8b

由zongzhuofan開發

MoVA-8B是一個開源的多模態大語言模型，採用從粗到細的機制，自適應地路由和融合特定任務的視覺專家模塊，可用於多模態模型和聊天機器人的研究。

下載量 835

發布時間 : 6/28/2024

模型概述

MoVA-8B是一個多模態大語言模型，結合了多種視覺編碼器和強大的基礎語言模型，支持多模態融合和視覺問答等任務。

多模態融合

採用從粗到細的機制，自適應地路由和融合特定任務的視覺專家模塊。

豐富的視覺編碼器

集成了OpenAI-CLIP-336px、DINOv2-giant等多種視覺編碼器。

強大的基礎大語言模型

基於meta-llama/Meta-Llama-3-8B-Instruct，具備強大的語言理解和生成能力。

多模態融合

視覺問答

文本生成

圖像分析

視覺定位

多模態研究

多模態聊天機器人

用於構建支持圖像和文本交互的聊天機器人。

視覺問答

文檔理解

用於解析和理解文檔內容，支持DocVQA等任務。

DocVQA準確率83.4

MoVA-8B是一個開源的多模態大語言模型，它採用從粗到細的機制，自適應地路由和融合特定任務的視覺專家模塊，可用於多模態模型和聊天機器人的研究。

你可以按照我們在[倉庫]中提供的方法直接使用該模型。

模型類型：MoVA-8B是一個開源的多模態大語言模型（MLLM），採用從粗到細的機制，自適應地路由和融合特定任務的視覺專家模塊。
- 視覺編碼器：OpenAI-CLIP-336px、DINOv2-giant、Co-DETR-large、SAM-huge、Vary-base、Pix2Struct-large、Deplot-base和BiomedCLIP-base。
- 基礎大語言模型：meta-llama/Meta-Llama-3-8B-Instruct
更多信息的論文或資源：[論文] [代碼]

預訓練：使用1500萬個多樣化的視覺指令調優樣本進行預訓練，包括DataComp-1B、ShareGPT4V-PT、Objects365和MMC-Instruction。更多詳細信息請參考我們的論文。
微調：使用200萬個高質量的指令數據進行微調。我們整合了多個跨領域的視覺問答數據集，如DocVQA、ChartQA、InfographicVQA、AI2D、ST-VQA、TextVQA、SynthDoG-en、Geometry3K、PGPS9K、Geo170K、VQA-RAD和SLAKE到LLaVA-mix-665k中。我們還包含了由GPT4-V生成的等效綜合字幕。