🚀 SpaceOm-GGUF
SpaceOm-GGUF 是一款專注於視覺問答任務的多模態模型,在空間推理方面表現出色。它基於特定數據集進行訓練,在多個基準測試中展現了良好的性能,可用於圖像文本轉換任務。
🚀 快速開始
模型基本信息
模型概覽

SpaceOm 在 SpaceThinker 的基礎上進行了改進,具體如下:
- 在 LoRA 微調中添加了目標模塊
o_proj
。
- 使用 SpaceOm 數據集 進行更長推理軌跡的訓練。
- 使用 Robo2VLM-Reasoning 數據集 進行更多機器人領域和 MCVQA 示例的訓練。
在 LoRA 微調中選擇將 o_proj
作為目標模塊之一,是受到了 此處 研究的啟發,該研究論證了此模塊在推理模型中的重要性。
SpaceThinker 數據集中的推理軌跡平均約有 200 個“思考”標記,因此我們在訓練數據中加入了更長的推理軌跡,以幫助模型在推理時使用更多標記。
為了提高機器人應用的對齊性,我們使用了從 Robo2VLM-1 數據集 派生的合成推理軌跡進行訓練。
模型評估
SpatialScore - 3B 和 4B 模型
模型 |
總體 |
計數 |
目標定位 |
位置關係 |
距離 |
目標屬性 |
相機與圖像變換 |
跟蹤 |
其他 |
SpaceQwen2.5-VL-3B |
42.31 |
45.01 |
49.78 |
57.88 |
27.36 |
34.11 |
26.34 |
26.44 |
43.58 |
SpatialBot-Phi2-3B |
41.65 |
53.23 |
54.32 |
55.40 |
27.12 |
26.10 |
24.21 |
27.57 |
41.66 |
Kimi-VL-3B |
51.48 |
49.22 |
61.99 |
61.34 |
38.27 |
46.74 |
33.75 |
56.28 |
47.23 |
Kimi-VL-3B-Thinking |
52.60 |
52.66 |
58.93 |
63.28 |
39.38 |
42.57 |
32.00 |
46.97 |
42.73 |
Qwen2.5-VL-3B |
47.90 |
46.62 |
55.55 |
62.23 |
32.39 |
32.97 |
30.66 |
36.90 |
42.19 |
InternVL2.5-4B |
49.82 |
53.32 |
62.02 |
62.02 |
32.80 |
27.00 |
32.49 |
37.02 |
48.95 |
SpaceOm (3B) |
49.00 |
56.00 |
54.00 |
65.00 |
41.00 |
50.00 |
36.00 |
42.00 |
47.00 |
查看 所有結果 以瞭解 SpaceOm 在 SpatialScore 基準測試 中的評估情況。
與 SpaceQwen 相比,該模型在所有類別中均表現更優。

與 SpaceThinker 相比:

SpaCE-10 基準測試對比

此表對比了使用 GPT 評分評估的 SpaceOm
與 SpaCE-10 基準測試排行榜上的幾個頂級模型。每個類別中的最高分以 粗體 顯示。
模型 |
實體量化 |
場景量化 |
大小評估 |
目標 - 目標空間關係 |
目標 - 場景空間關係 |
實體存在 |
功能推理 |
空間規劃 |
來源 |
SpaceOm |
32.47 |
24.81 |
47.63 |
50.00 |
32.52 |
9.12 |
37.04 |
25.00 |
GPT 評估 |
Qwen2.5-VL-7B-Instruct |
32.70 |
31.00 |
41.30 |
32.10 |
27.60 |
15.40 |
26.30 |
27.50 |
表格 |
LLaVA-OneVision-7B |
37.40 |
36.20 |
42.90 |
44.20 |
27.10 |
11.20 |
45.60 |
27.20 |
表格 |
VILA1.5-7B |
30.20 |
38.60 |
39.90 |
44.10 |
16.50 |
35.10 |
30.10 |
37.60 |
表格 |
InternVL2.5-4B |
34.30 |
34.40 |
43.60 |
44.60 |
16.10 |
30.10 |
33.70 |
36.70 |
表格 |
圖例:
- EQ:實體量化
- SQ:場景量化
- SA:大小評估
- OO:目標 - 目標空間關係
- OS:目標 - 場景空間關係
- EP:實體存在
- FR:功能推理
- SP:空間規劃
ℹ️ 注意:SpaceOm 的分數是通過 gpt_eval_score
在 SpaCE-10 基準測試任務的單項選擇(*-single
)版本上生成的。其他條目反映了官方 SpaCE-10 評估表中的排行榜準確率分數。
閱讀更多關於 SpaCE-10 基準測試 的信息。
侷限性
- 在雜亂環境或相機視角下,性能可能會下降。
- 該模型是在互聯網圖像數據集上使用合成推理進行微調的。
- 基礎模型(Qwen2.5-VL)固有的多模態偏差可能仍然存在。
- 不適合用於安全關鍵或法律決策。
建議用戶批判性地評估輸出結果,並考慮針對特定領域的安全性和性能進行微調。使用自迴歸變壓器估計的距離可能有助於規劃和行為的高階推理,但可能不適合替代高精度傳感器、校準立體視覺系統或能夠進行更準確的逐像素預測和即時性能的專業單目深度估計模型所進行的測量。
許可證
本模型採用 Apache-2.0 許可證。
引用
@article{chen2024spatialvlm,
title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
journal = {arXiv preprint arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{qwen2.5-VL,
title = {Qwen2.5-VL},
url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
author = {Qwen Team},
month = {January},
year = {2025}
}
@misc{vl-thinking2025,
title={SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models },
author={Hardy Chen and Haoqin Tu and Fali Wang and Hui Liu and Xianfeng Tang and Xinya Du and Yuyin Zhou and Cihang Xie},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/UCSC-VLAA/VLAA-Thinking}},
}
@article{wu2025spatialscore,
author = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
title = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding},
journal = {arXiv preprint arXiv:2505.17012},
year = {2025},
}
@article{gong2025space10,
title = {SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence},
author = {Ziyang Gong and Wenhao Li and Oliver Ma and Songyuan Li and Jiayi Ji and Xue Yang and Gen Luo and Junchi Yan and Rongrong Ji},
journal = {arXiv preprint arXiv:2506.07966},
year = {2025},
url = {https://arxiv.org/abs/2506.07966}
}