🚀 SpaceOm-GGUF
SpaceOm-GGUFは、空間推論能力を備えたマルチモーダルなビジョン言語モデルです。画像とテキストを入力として受け取り、視覚的な質問応答タスクに特化しています。
🚀 クイックスタート
このセクションでは、SpaceOm-GGUFモデルの概要と、その評価結果について説明します。
✨ 主な機能
- 空間推論能力:3D位置関係、物体の位置特定、物体の特性評価など、様々な空間的な質問に回答できます。
- マルチモーダル処理:画像とテキストを同時に扱い、視覚情報と言語情報を統合して推論します。
- 長い推論トレース:訓練データに長い推論トレースを含めることで、より多くのトークンを使って推論できるようになりました。
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
このREADMEには使用例が記載されていないため、このセクションを省略します。
📚 詳細ドキュメント
モデル概要
SpaceOmは、SpaceThinkerをベースに以下の点を改良しています。
- LoRA微調整でターゲットモジュール
o_proj
を追加。
- より長い推論トレースを含むSpaceOm データセットを使用。
- ロボット工学ドメインとMCVQAの例が豊富なRobo2VLM-Reasoning データセットを使用。
LoRA微調整でo_proj
をターゲットモジュールに含めたのは、この研究が推論モデルにおけるこのモジュールの重要性を主張しているためです。
SpaceThinkerデータセットの推論トレースは平均で約200の「思考」トークンですが、訓練データにより長い推論トレースを含めることで、モデルがより多くのトークンを使って推論できるようになりました。
ロボット工学アプリケーションのアラインメントを改善するため、Robo2VLM-1 データセットから派生した合成推論トレースを使って訓練しました。
モデル評価
SpatialScore - 3Bと4Bモデル
モデル |
全体 |
カウント |
物体位置特定 |
位置関係 |
距離 |
物体特性 |
カメラと画像変換 |
追跡 |
その他 |
SpaceQwen2.5-VL-3B |
42.31 |
45.01 |
49.78 |
57.88 |
27.36 |
34.11 |
26.34 |
26.44 |
43.58 |
SpatialBot-Phi2-3B |
41.65 |
53.23 |
54.32 |
55.40 |
27.12 |
26.10 |
24.21 |
27.57 |
41.66 |
Kimi-VL-3B |
51.48 |
49.22 |
61.99 |
61.34 |
38.27 |
46.74 |
33.75 |
56.28 |
47.23 |
Kimi-VL-3B-Thinking |
52.60 |
52.66 |
58.93 |
63.28 |
39.38 |
42.57 |
32.00 |
46.97 |
42.73 |
Qwen2.5-VL-3B |
47.90 |
46.62 |
55.55 |
62.23 |
32.39 |
32.97 |
30.66 |
36.90 |
42.19 |
InternVL2.5-4B |
49.82 |
53.32 |
62.02 |
62.02 |
32.80 |
27.00 |
32.49 |
37.02 |
48.95 |
SpaceOm (3B) |
49.00 |
56.00 |
54.00 |
65.00 |
41.00 |
50.00 |
36.00 |
42.00 |
47.00 |
SpaceOmをSpatialScore ベンチマークで評価したすべての結果を参照してください。
SpaceQwenと比較すると、このモデルはすべてのカテゴリで優れています。
SpaCE-10ベンチマーク比較
モデル |
EQ |
SQ |
SA |
OO |
OS |
EP |
FR |
SP |
ソース |
SpaceOm |
32.47 |
24.81 |
47.63 |
50.00 |
32.52 |
9.12 |
37.04 |
25.00 |
GPT評価 |
Qwen2.5-VL-7B-Instruct |
32.70 |
31.00 |
41.30 |
32.10 |
27.60 |
15.40 |
26.30 |
27.50 |
テーブル |
LLaVA-OneVision-7B |
37.40 |
36.20 |
42.90 |
44.20 |
27.10 |
11.20 |
45.60 |
27.20 |
テーブル |
VILA1.5-7B |
30.20 |
38.60 |
39.90 |
44.10 |
16.50 |
35.10 |
30.10 |
37.60 |
テーブル |
InternVL2.5-4B |
34.30 |
34.40 |
43.60 |
44.60 |
16.10 |
30.10 |
33.70 |
36.70 |
テーブル |
凡例:
- EQ: エンティティの定量化
- SQ: シーンの定量化
- SA: サイズ評価
- OO: 物体-物体の空間関係
- OS: 物体-シーンの空間関係
- EP: エンティティの存在
- FR: 機能的推論
- SP: 空間計画
ℹ️ 注意: SpaceOmのスコアは、SpaCE-10ベンチマークタスクの単一選択 (*-single
) バージョンでgpt_eval_score
を使って生成されています。他のエントリは、公式のSpaCE-10評価テーブルのリーダーボードの正解率スコアを反映しています。
こちらでSpaCE-10ベンチマークについて詳しく読むことができます。
制限事項
- 混雑した環境やカメラの視点では性能が低下する可能性があります。
- このモデルは、インターネット上の画像データセットに対する合成推論を使って微調整されています。
- ベースモデル (Qwen2.5-VL) に固有のマルチモーダルバイアスが残る可能性があります。
- 安全上重要な決定や法的な決定には使用しないでください。
ユーザーは、出力を批判的に評価し、ドメイン固有の安全性とパフォーマンスのために微調整を検討することをお勧めします。自己回帰トランスフォーマーを使って推定された距離は、計画や行動のための高次の推論に役立つかもしれませんが、高精度センサー、校正されたステレオビジョンシステム、またはより正確なピクセル単位の予測とリアルタイム性能が可能な専用の単眼深度推定モデルで行われる測定の代替には適さない場合があります。
🔧 技術詳細
このREADMEには技術的な詳細が十分に記載されていないため、このセクションを省略します。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
引用
@article{chen2024spatialvlm,
title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
journal = {arXiv preprint arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{qwen2.5-VL,
title = {Qwen2.5-VL},
url = {https://qwenlm.github.io/blog/qwen2.5-vl/},
author = {Qwen Team},
month = {January},
year = {2025}
}
@misc{vl-thinking2025,
title={SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models },
author={Hardy Chen and Haoqin Tu and Fali Wang and Hui Liu and Xianfeng Tang and Xinya Du and Yuyin Zhou and Cihang Xie},
year = {2025},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/UCSC-VLAA/VLAA-Thinking}},
}
@article{wu2025spatialscore,
author = {Wu, Haoning and Huang, Xiao and Chen, Yaohui and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
title = {SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding},
journal = {arXiv preprint arXiv:2505.17012},
year = {2025},
}
@article{gong2025space10,
title = {SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence},
author = {Ziyang Gong and Wenhao Li and Oliver Ma and Songyuan Li and Jiayi Ji and Xue Yang and Gen Luo and Junchi Yan and Rongrong Ji},
journal = {arXiv preprint arXiv:2506.07966},
year = {2025},
url = {https://arxiv.org/abs/2506.07966}
}