Spatial-LLaVA-7B-gguf開源多模態模型 - 強化空間推理用於研究與聊天機器人開發

首頁

Spatial LLaVA 7B Gguf

由rogerxi開發

Spatial-LLaVA-7B是基於LLaVA模型微調的多模態模型，專注於提升空間關係推理能力，適用於多模態研究和聊天機器人開發。

文本生成圖像

Safetensors

開源協議:Apache-2.0 #空間關係推理 #多模態對話 #視覺問答增強

下載量 252

發布時間 : 5/10/2025

模型概述

該模型通過微調LLaVA模型，增強了大型多模態模型在空間關係推理方面的能力，可用於研究和開發多模態交互系統。

模型特點

增強的空間關係推理

通過專門的數據集訓練，顯著提升了模型在理解物體間空間關係方面的能力。

多模態能力

能夠同時處理視覺和語言信息，實現跨模態的理解和推理。

開源可用

模型和訓練數據均開源，便於研究和二次開發。

模型能力

視覺問答

空間關係推理

多模態對話

圖像理解

文本生成

使用案例

研究

多模態模型研究

用於研究大型多模態模型的空間推理能力

在Spatial-Relation-Eval基準測試中表現優於基礎LLaVA模型

應用開發

智能聊天機器人

開發能夠理解圖像空間關係的對話系統

🚀 Spatial-LLaVA-7B模型卡片

Spatial-LLaVA-7B是一個經過微調的多模態模型，基於LLaVA模型進一步優化，旨在提升大型多模態模型的空間關係推理能力，可用於多模態研究和聊天機器人開發。

🚀 快速開始

你可以通過以下鏈接訪問相關資源：

Github倉庫
Huggingface空間演示

✨ 主要特性

模型類型

此微調後的LLaVA模型基於 liuhaotian/llava-pretrain-vicuna-7b-v1.3 進行訓練，用於提升大型多模態模型的空間關係推理能力。

LLaVA是一個開源聊天機器人，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna得到。它是一個基於Transformer架構的自迴歸語言模型。

預期用途

主要預期用途：LLaVA主要用於大型多模態模型和聊天機器人的研究。
主要預期用戶：該模型的主要預期用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

訓練數據集

指令跟隨訓練使用了 rogerxi/LLaVA-Spatial-Instruct-850K 數據集。

評估

10個基準測試集合

模型	VQAv2	GQA	VizWiz	SQA	TextVQA	POPE	MME	MM - Bench	MM - Bench - cn	MM - Vet
LLaVA - 1.5 - 7b	78.5	62.0	50.0	66.8	58.2	85.9	1510.7	64.3	58.3	31.1
Spatial - LLaVA - 7b	79.7	62.7	48.7	68.7	58.5	87.2	1472.7	67.8	60.7	31.6

Spatial - Relation - Eval（基於 SpatialRGPT - Bench 構建）

定性空間關係

模型	下方/上方	左/右	大/小	高/矮	寬/窄	後/前	平均
LLaVA - 1.5 - 7b	53.91	53.49	45.36	40.00	50.00	51.04	48.97
LLaVA - 1.5 - 13b	54.28	52.32	45.36	48.57	49.02	47.92	49.67
Spatial - LLaVA - 7b	56.32	66.28	60.82	48.57	49.02	52.08	55.12

定量空間關係

模型	直接距離 (m / 比率)	水平距離 (m / 比率)	垂直距離 (m / 比率)	寬度 (m / 比率)	高度 (m / 比率)	方向 (¬∞ / 比率)
LLaVA - 1.5 - 7b	12.90 / 0.57	10.68 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47
LLaVA - 1.5 - 13b	13.71 / 0.93	10.68 / 3.56	16.83 / 0.85	15.32 / 0.57	17.67 / 5.8	14.77 / 54.29
Spatial - LLaVA - 7b	24.19 / 0.57	14.56 / 0.62	41.58 / 0.42	22.58 / 1.12	18.25 / 2.92	20.45 / 56.47

🔧 致謝

我們感謝劉浩天等人提供的LLaVA預訓練腳本、權重和LLaVA - v1.5混合數據集；感謝CLEVR、TextCaps、VisualMRC和VQAv2（通過 “HuggingFaceM4/the_cauldron”）背後的團隊；感謝remyxai提供OpenSpaces；感謝程安傑等人提供Spatial - Bench和數據管道；感謝谷歌提供OpenImages；感謝Hugging Face提供的數據集基礎設施。