Spatial-LLaVA-7B-gguf开源多模态模型 - 强化空间推理用于研究与聊天机器人开发

首页

Spatial LLaVA 7B Gguf

由 rogerxi 开发

Spatial-LLaVA-7B是基于LLaVA模型微调的多模态模型，专注于提升空间关系推理能力，适用于多模态研究和聊天机器人开发。

文本生成图像

Safetensors

开源协议:Apache-2.0 #空间关系推理 #多模态对话 #视觉问答增强

下载量 252

发布时间 : 5/10/2025

模型简介

该模型通过微调LLaVA模型，增强了大型多模态模型在空间关系推理方面的能力，可用于研究和开发多模态交互系统。

模型特点

增强的空间关系推理

通过专门的数据集训练，显著提升了模型在理解物体间空间关系方面的能力。

多模态能力

能够同时处理视觉和语言信息，实现跨模态的理解和推理。

开源可用

模型和训练数据均开源，便于研究和二次开发。

模型能力

视觉问答

空间关系推理

多模态对话

图像理解

文本生成

使用案例

研究

多模态模型研究

用于研究大型多模态模型的空间推理能力

在Spatial-Relation-Eval基准测试中表现优于基础LLaVA模型

应用开发

智能聊天机器人

开发能够理解图像空间关系的对话系统

🚀 Spatial-LLaVA-7B模型卡片

Spatial-LLaVA-7B是一个经过微调的多模态模型，基于LLaVA模型进一步优化，旨在提升大型多模态模型的空间关系推理能力，可用于多模态研究和聊天机器人开发。

🚀 快速开始

你可以通过以下链接访问相关资源：

Github仓库
Huggingface空间演示

✨ 主要特性

模型类型

此微调后的LLaVA模型基于 liuhaotian/llava-pretrain-vicuna-7b-v1.3 进行训练，用于提升大型多模态模型的空间关系推理能力。

LLaVA是一个开源聊天机器人，通过在GPT生成的多模态指令跟随数据上微调LLaMA/Vicuna得到。它是一个基于Transformer架构的自回归语言模型。

预期用途

主要预期用途：LLaVA主要用于大型多模态模型和聊天机器人的研究。
主要预期用户：该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

指令跟随训练使用了 rogerxi/LLaVA-Spatial-Instruct-850K 数据集。

评估

10个基准测试集合

模型	VQAv2	GQA	VizWiz	SQA	TextVQA	POPE	MME	MM - Bench	MM - Bench - cn	MM - Vet
LLaVA - 1.5 - 7b	78.5	62.0	50.0	66.8	58.2	85.9	1510.7	64.3	58.3	31.1
Spatial - LLaVA - 7b	79.7	62.7	48.7	68.7	58.5	87.2	1472.7	67.8	60.7	31.6

Spatial - Relation - Eval（基于 SpatialRGPT - Bench 构建）

定性空间关系

模型	下方/上方	左/右	大/小	高/矮	宽/窄	后/前	平均
LLaVA - 1.5 - 7b	53.91	53.49	45.36	40.00	50.00	51.04	48.97
LLaVA - 1.5 - 13b	54.28	52.32	45.36	48.57	49.02	47.92	49.67
Spatial - LLaVA - 7b	56.32	66.28	60.82	48.57	49.02	52.08	55.12

定量空间关系

模型	直接距离 (m / 比率)	水平距离 (m / 比率)	垂直距离 (m / 比率)	宽度 (m / 比率)	高度 (m / 比率)	方向 (¬∞ / 比率)
LLaVA - 1.5 - 7b	12.90 / 0.57	10.68 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47
LLaVA - 1.5 - 13b	13.71 / 0.93	10.68 / 3.56	16.83 / 0.85	15.32 / 0.57	17.67 / 5.8	14.77 / 54.29
Spatial - LLaVA - 7b	24.19 / 0.57	14.56 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47

🔧 致谢

我们感谢刘浩天等人提供的LLaVA预训练脚本、权重和LLaVA - v1.5混合数据集；感谢CLEVR、TextCaps、VisualMRC和VQAv2（通过 “HuggingFaceM4/the_cauldron”）背后的团队；感谢remyxai提供OpenSpaces；感谢程安杰等人提供Spatial - Bench和数据管道；感谢谷歌提供OpenImages；感谢Hugging Face提供的数据集基础设施。