V

Vsft Llava 1.5 7b Hf Trl

由 HuggingFaceH4 开发
基于LLaVA-1.5-7B模型通过视觉监督微调(VSFT)训练的多模态视觉语言模型,支持图像理解和对话生成
下载量 65
发布时间 : 4/11/2024

模型简介

该模型是一个开源聊天机器人,通过基于LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成,能够理解图像内容并进行自然语言对话

模型特点

多图像支持
支持在单个提示中处理多张图像,实现更复杂的多模态理解
指令跟随
经过指令微调训练,能够遵循用户指令进行详细、有帮助的回答
视觉监督微调
使用26万张图像和对话对进行VSFT训练,增强了视觉理解能力

模型能力

图像内容理解
多模态对话生成
视觉问答
图像描述生成

使用案例

教育
科学图表解释
帮助学生理解科学图表中的标签和概念
能准确识别图表中的元素并解释其含义
内容分析
图像内容描述
为视觉障碍用户生成图像的详细文字描述
提供准确且详细的图像内容描述
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase