L

Llava Llama 3 8b

Developed by Intel
基于LLaVA-v1.5框架训练的大型多模态模型,采用80亿参数的Meta-Llama-3-8B-Instruct作为语言主干,并配备基于CLIP的视觉编码器。
Downloads 387
Release Time : 5/8/2024

Model Overview

该模型针对多模态基准评估进行了微调,也可用作多模态聊天机器人。

Model Features

多模态能力
结合视觉编码器和语言模型,能够理解和生成与图像相关的文本内容。
高性能基准
在多个多模态基准测试中表现优异,如GQA、MMVP、Pope等。
基于LLaVA-v1.5框架
采用改进的视觉指令调优基线,提升了多模态任务的性能。

Model Capabilities

图像理解
多模态对话
视觉问答
图像描述生成

Use Cases

多模态评估
多模态基准测试
用于评估模型在多模态任务中的性能表现。
在GQA、MMVP、Pope等基准测试中取得较高分数。
聊天机器人
多模态聊天
作为多模态聊天机器人,能够理解和回答与图像相关的问题。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase