SpaceOm-GGUF開源多模態模型 - 免費用於視覺問答與空間推理任務

首頁

Spaceom GGUF

由mgonzs13開發

SpaceOm-GGUF 是一款專注於視覺問答任務的多模態模型，在空間推理方面表現出色。

文本生成圖像英語開源協議:Apache-2.0 #視覺問答 #空間推理 #多模態模型

下載量 196

發布時間 : 6/11/2025

模型概述

SpaceOm-GGUF 是基於特定數據集訓練的多模態模型，擅長視覺問答和空間推理任務，可用於圖像文本轉換。

模型特點

增強的空間推理能力

在 SpaceThinker 基礎上改進，通過更長的推理軌跡訓練提升空間理解能力

機器人領域優化

使用 Robo2VLM-Reasoning 數據集訓練，增強機器人應用場景下的表現

多模態融合

結合視覺和語言處理能力，實現高質量的圖像文本轉換

模型能力

視覺問答

空間推理

圖像描述生成

目標定位

空間關係理解

距離估計

使用案例

機器人導航

空間環境理解

幫助機器人理解周圍環境的空間佈局

在 SpatialScore 基準測試中目標定位得分 54.00

教育

視覺問答系統

回答關於圖像內容的複雜空間問題

在 SpaCE-10 基準測試中目標-目標空間關係得分 50.00

🚀 SpaceOm-GGUF

SpaceOm-GGUF 是一款專注於視覺問答任務的多模態模型，在空間推理方面表現出色。它基於特定數據集進行訓練，在多個基準測試中展現了良好的性能，可用於圖像文本轉換任務。

🚀 快速開始

模型基本信息

模型創建者：remyxai
原始模型：SpaceOm
GGUF 量化：llama.cpp 提交版本 2baf07727f921d9a4a1b63a2eff941e95d0488ed

模型概覽

模型示例

SpaceOm 在 SpaceThinker 的基礎上進行了改進，具體如下：

在 LoRA 微調中添加了目標模塊 o_proj。
使用 SpaceOm 數據集進行更長推理軌跡的訓練。
使用 Robo2VLM-Reasoning 數據集進行更多機器人領域和 MCVQA 示例的訓練。

在 LoRA 微調中選擇將 o_proj 作為目標模塊之一，是受到了此處研究的啟發，該研究論證了此模塊在推理模型中的重要性。

SpaceThinker 數據集中的推理軌跡平均約有 200 個“思考”標記，因此我們在訓練數據中加入了更長的推理軌跡，以幫助模型在推理時使用更多標記。

為了提高機器人應用的對齊性，我們使用了從 Robo2VLM-1 數據集派生的合成推理軌跡進行訓練。

模型評估

SpatialScore - 3B 和 4B 模型

模型	總體	計數	目標定位	位置關係	距離	目標屬性	相機與圖像變換	跟蹤	其他
SpaceQwen2.5-VL-3B	42.31	45.01	49.78	57.88	27.36	34.11	26.34	26.44	43.58
SpatialBot-Phi2-3B	41.65	53.23	54.32	55.40	27.12	26.10	24.21	27.57	41.66
Kimi-VL-3B	51.48	49.22	61.99	61.34	38.27	46.74	33.75	56.28	47.23
Kimi-VL-3B-Thinking	52.60	52.66	58.93	63.28	39.38	42.57	32.00	46.97	42.73
Qwen2.5-VL-3B	47.90	46.62	55.55	62.23	32.39	32.97	30.66	36.90	42.19
InternVL2.5-4B	49.82	53.32	62.02	62.02	32.80	27.00	32.49	37.02	48.95
SpaceOm (3B)	49.00	56.00	54.00	65.00	41.00	50.00	36.00	42.00	47.00

查看所有結果以瞭解 SpaceOm 在 SpatialScore 基準測試中的評估情況。

與 SpaceQwen 相比，該模型在所有類別中均表現更優。

SpatialScore 對比圖

與 SpaceThinker 相比：

與 SpaceThinker 對比圖

SpaCE-10 基準測試對比

此表對比了使用 GPT 評分評估的 SpaceOm 與 SpaCE-10 基準測試排行榜上的幾個頂級模型。每個類別中的最高分以粗體顯示。

模型	實體量化	場景量化	大小評估	目標 - 目標空間關係	目標 - 場景空間關係	實體存在	功能推理	空間規劃	來源
SpaceOm	32.47	24.81	47.63	50.00	32.52	9.12	37.04	25.00	GPT 評估
Qwen2.5-VL-7B-Instruct	32.70	31.00	41.30	32.10	27.60	15.40	26.30	27.50	表格
LLaVA-OneVision-7B	37.40	36.20	42.90	44.20	27.10	11.20	45.60	27.20	表格
VILA1.5-7B	30.20	38.60	39.90	44.10	16.50	35.10	30.10	37.60	表格
InternVL2.5-4B	34.30	34.40	43.60	44.60	16.10	30.10	33.70	36.70	表格

圖例：

EQ：實體量化
SQ：場景量化
SA：大小評估
OO：目標 - 目標空間關係
OS：目標 - 場景空間關係
EP：實體存在
FR：功能推理
SP：空間規劃

ℹ️ 注意：SpaceOm 的分數是通過 gpt_eval_score 在 SpaCE-10 基準測試任務的單項選擇（*-single）版本上生成的。其他條目反映了官方 SpaCE-10 評估表中的排行榜準確率分數。

閱讀更多關於 SpaCE-10 基準測試的信息。

侷限性

在雜亂環境或相機視角下，性能可能會下降。
該模型是在互聯網圖像數據集上使用合成推理進行微調的。
基礎模型（Qwen2.5-VL）固有的多模態偏差可能仍然存在。
不適合用於安全關鍵或法律決策。

建議用戶批判性地評估輸出結果，並考慮針對特定領域的安全性和性能進行微調。使用自迴歸變壓器估計的距離可能有助於規劃和行為的高階推理，但可能不適合替代高精度傳感器、校準立體視覺系統或能夠進行更準確的逐像素預測和即時性能的專業單目深度估計模型所進行的測量。

許可證

本模型採用 Apache-2.0 許可證。

引用

@article{chen2024spatialvlm,
  title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
  author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
  journal = {arXiv preprint arXiv:2401.12168},
  year = {2024},
  url = {https://arxiv.org/abs/2401.12168},
}

@misc{qwen2.5-VL,
  title = {Qwen2.5-VL},
  url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
  author = {Qwen Team},
  month = {January},
  year = {2025}
}

@misc{vl-thinking2025,
  title={SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models },
  author={Hardy Chen and Haoqin Tu and Fali Wang and Hui Liu and Xianfeng Tang and Xinya Du and Yuyin Zhou and Cihang Xie},
  year = {2025},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/UCSC-VLAA/VLAA-Thinking}},
}

@article{wu2025spatialscore,
    author    = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
    title     = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding},
    journal   = {arXiv preprint arXiv:2505.17012},
    year      = {2025},
}

@article{gong2025space10,
  title     = {SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence},
  author    = {Ziyang Gong and Wenhao Li and Oliver Ma and Songyuan Li and Jiayi Ji and Xue Yang and Gen Luo and Junchi Yan and Rongrong Ji},
  journal   = {arXiv preprint arXiv:2506.07966},
  year      = {2025},
  url       = {https://arxiv.org/abs/2506.07966}
}