L

Llava Llama 3 8b V1 1 Transformers

由 xtuner 开发
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像文本到文本任务
下载量 454.61k
发布时间 : 4/26/2024

模型简介

这是一个多模态模型,能够理解图像内容并生成相关文本描述或回答关于图像的问题。

模型特点

多模态理解
结合视觉编码器和语言模型,能够理解图像内容并生成相关文本
高性能
在多个基准测试中表现优于LLaVA-v1.5-7B模型
LoRA微调
使用LoRA技术对视觉编码器进行微调,提高模型性能

模型能力

图像内容理解
图像问答
多模态对话
视觉推理

使用案例

视觉问答
图像内容描述
对图像内容进行详细描述
准确识别图像中的物体、场景和关系
视觉推理
回答关于图像的推理问题
在MMBench等基准测试中表现优异
教育
科学问题解答
基于图像解答科学问题
在ScienceQA测试中获得72.9分
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase