🚀 SpaceLLaVA
SpaceLLaVAは、画像とテキストを入力としてテキストを出力するマルチモーダルなビジョン言語モデルです。LLaVA-1.5 (13B) をベースに、空間推論能力を向上させるためにLoRAでファインチューニングされています。

属性 |
详情 |
モデルタイプ |
マルチモーダル、ビジョン言語モデル |
アーキテクチャ |
llava-v1.5-13b |
モデルサイズ |
13.4Bパラメータ (FP16) |
ファインチューニング元 |
liuhaotian/llava-v1.5-13b |
ファインチューニング戦略 |
LoRA (Low-Rank Adaptation) |
ライセンス |
Apache-2.0 |
🚀 クイックスタート
モデル概要
SpaceLLaVAは、LLaVA-1.5 (13B) をベースにしたビジョン言語モデルで、空間推論能力を向上させるためにLoRAでファインチューニングされています。SpatialVLM で説明されている手法にインスパイアされた合成VQA データセット を使用してトレーニングされています。VQASynth のパイプラインから3Dシーン理解を蒸留した後、SpaceLLaVAは定性的および定量的な空間推論能力を示します。
GGUF
このノートブックを使用して、llama-cpp-pythonでシーン内のオブジェクト間の空間関係をクエリできます。

Docker
docker build -f Dockerfile -t spacellava-server:latest
docker run -it --rm --gpus all -p8000:8000 -p8001:8001 -p8002:8002 --shm-size 12G spacellava-server:latest
python3 client.py --image_path "https://remyx.ai/assets/spatialvlm/warehouse_rgb.jpg" --prompt "What is the distance between the man in the red hat and the pallet of boxes?"
📦 インストール
このモデルを使用するには、上記のGGUFまたはDockerの手順に従ってください。
📚 ドキュメント
データセットとトレーニング
-
データセット: SpaceLLaVA
-
コード: VQASynth
-
参考文献: SpatialVLM
-
3Dシーン再構成パイプラインを使用して作成された約28,000の合成サンプル
-
形式: 画像 (RGB)、質問 (テキスト)、回答 (テキスト)
-
空間関係のタイプには、「距離」、「サイズ」、「左にある」、「上にある」、「近い」、「内側にある」などが含まれます。
LoRA SFTのスクリプトは trl で入手できます。SpaceVLMsコレクション もチェックしてください。
モデル評価 (近日公開)
予定: QSpatialベンチマーク、VSRなどでのVLMEvalKit評価。
Discordで試す: http://discord.gg/b2yGuCNpuC

🔧 技術詳細
このモデルは、LLaVA-1.5 (13B) をベースに、空間推論能力を向上させるためにLoRAでファインチューニングされています。合成VQAデータセットを使用してトレーニングされ、3Dシーン理解を蒸留することで、定性的および定量的な空間推論能力を獲得しています。
⚠️ 制限事項と倫理的な考慮事項
- 混雑した環境やカメラの視点によっては、性能が低下する可能性があります。
- このモデルは、インターネット上の画像データセットに対する合成推論を使用してファインチューニングされています。
- ベースモデル (LLaVA) に固有のマルチモーダルバイアスが残る可能性があります。
- 安全上重要な決定や法的な決定には使用しないでください。
ユーザーは、出力を批判的に評価し、ドメイン固有の安全性と性能のためにファインチューニングを検討することをお勧めします。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
@article{chen2024spatialvlm,
title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
journal = {arXiv preprint arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}