🚀 SpaceLLaVA
SpaceLLaVA 是一款多模态的视觉语言模型,它基于LLaVA - 1.5(13B)进行适配,并通过LoRA微调以增强空间推理能力。该模型使用合成VQA数据集进行训练,在定性和定量空间推理方面表现出色。
🚀 快速开始
GGUF
使用此笔记本,借助llama - cpp - python查询场景中对象之间的空间关系。

Docker
docker build -f Dockerfile -t spacellava-server:latest
docker run -it --rm --gpus all -p8000:8000 -p8001:8001 -p8002:8002 --shm-size 12G spacellava-server:latest
python3 client.py --image_path "https://remyx.ai/assets/spatialvlm/warehouse_rgb.jpg" --prompt "What is the distance between the man in the red hat and the pallet of boxes?"
✨ 主要特性
- 多模态能力:作为视觉语言模型,能够处理图像和文本信息。
- 强大的空间推理:经过微调,在定性和定量空间推理方面表现出色。
- 基于成熟架构:基于
llava - v1.5 - 13b
架构,具有13.4B参数(FP16)。
📦 安装指南
Docker安装
docker build -f Dockerfile -t spacellava-server:latest
Docker运行
docker run -it --rm --gpus all -p8000:8000 -p8001:8001 -p8002:8002 --shm-size 12G spacellava-server:latest
客户端调用
python3 client.py --image_path "https://remyx.ai/assets/spatialvlm/warehouse_rgb.jpg" --prompt "What is the distance between the man in the red hat and the pallet of boxes?"
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
多模态,视觉语言模型 |
架构 |
llava - v1.5 - 13b |
模型大小 |
13.4B参数(FP16) |
微调基础 |
liuhaotian/llava - v1.5 - 13b |
微调策略 |
LoRA(低秩自适应) |
许可证 |
Apache - 2.0 |
数据集与训练
数据集包含约28,000个合成样本,使用模板化的VQA对和3D场景重建管道创建。数据格式包括图像(RGB)、问题(文本)和答案(文本),空间关系类型包括“距离”、“大小”、“在……左边”、“在……上方”、“更靠近”、“在……里面”等。
LoRA SFT脚本可在 trl 找到。查看 [SpaceVLMs集合](https://huggingface.co/collections/remyxai/spacevlms - 66a3dbb924756d98e7aec678)。
模型评估(即将推出)
计划使用VLMEvalKit在QSpatial基准、VSR等上进行评估。
试用
可在Discord上试用:http://discord.gg/b2yGuCNpuC
🔧 技术细节
SpaceLLaVA从 VQASynth 的管道中提炼3D场景理解,从而在空间推理方面表现出强大的能力。它基于LLaVA - 1.5(13B)进行微调,采用LoRA(低秩自适应)策略,在合成VQA数据集上进行训练,该数据集受 [SpatialVLM](https://spatial - vlm.github.io/) 方法的启发。
⚠️ 限制与伦理考虑
⚠️ 重要提示
- 模型在杂乱环境或特定相机视角下性能可能下降。
- 该模型使用合成推理在互联网图像数据集上进行微调。
- 基础模型(LLaVA)固有的多模态偏差可能仍然存在。
- 不建议用于安全关键或法律决策场景。
💡 使用建议
鼓励用户批判性地评估模型输出,并考虑针对特定领域进行微调以提高安全性和性能。
📄 许可证
本项目采用Apache - 2.0许可证。
@article{chen2024spatialvlm,
title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
journal = {arXiv preprint arXiv:2401.12168},
year = {2024},
url = {https://arxiv.org/abs/2401.12168},
}
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}