llama3-mova-8b开源多模态大语言模型 - 助力多模态研究与聊天机器人开发

Llama3 Mova 8b

由 zongzhuofan 开发

MoVA-8B是一个开源的多模态大语言模型，采用从粗到细的机制，自适应地路由和融合特定任务的视觉专家模块，可用于多模态模型和聊天机器人的研究。

下载量 835

发布时间 : 6/28/2024

模型简介

MoVA-8B是一个多模态大语言模型，结合了多种视觉编码器和强大的基础语言模型，支持多模态融合和视觉问答等任务。

多模态融合

采用从粗到细的机制，自适应地路由和融合特定任务的视觉专家模块。

丰富的视觉编码器

集成了OpenAI-CLIP-336px、DINOv2-giant等多种视觉编码器。

强大的基础大语言模型

基于meta-llama/Meta-Llama-3-8B-Instruct，具备强大的语言理解和生成能力。

多模态融合

视觉问答

文本生成

图像分析

视觉定位

多模态研究

多模态聊天机器人

用于构建支持图像和文本交互的聊天机器人。

视觉问答

文档理解

用于解析和理解文档内容，支持DocVQA等任务。

DocVQA准确率83.4

MoVA-8B是一个开源的多模态大语言模型，它采用从粗到细的机制，自适应地路由和融合特定任务的视觉专家模块，可用于多模态模型和聊天机器人的研究。

你可以按照我们在[仓库]中提供的方法直接使用该模型。

模型类型：MoVA-8B是一个开源的多模态大语言模型（MLLM），采用从粗到细的机制，自适应地路由和融合特定任务的视觉专家模块。
- 视觉编码器：OpenAI-CLIP-336px、DINOv2-giant、Co-DETR-large、SAM-huge、Vary-base、Pix2Struct-large、Deplot-base和BiomedCLIP-base。
- 基础大语言模型：meta-llama/Meta-Llama-3-8B-Instruct
更多信息的论文或资源：[论文] [代码]

预训练：使用1500万个多样化的视觉指令调优样本进行预训练，包括DataComp-1B、ShareGPT4V-PT、Objects365和MMC-Instruction。更多详细信息请参考我们的论文。
微调：使用200万个高质量的指令数据进行微调。我们整合了多个跨领域的视觉问答数据集，如DocVQA、ChartQA、InfographicVQA、AI2D、ST-VQA、TextVQA、SynthDoG-en、Geometry3K、PGPS9K、Geo170K、VQA-RAD和SLAKE到LLaVA-mix-665k中。我们还包含了由GPT4-V生成的等效综合字幕。