SpaceLLaVA开源视觉语言模型 - 提升空间推理能力，适用定量定性任务

首页

Spacellava

由 remyxai 开发

SpaceLLaVA是基于LLaVA-1.5改进的视觉语言模型，通过LoRA微调提升空间推理能力，适用于定量和定性空间推理任务。

图像生成文本英语开源协议:Apache-2.0 #空间距离估计 #3D场景理解 #多模态VQA

下载量 324

发布时间 : 3/4/2024

模型简介

SpaceLLaVA是一个多模态视觉语言模型，专注于空间推理任务，如距离估计、物体位置关系判断等。它通过合成VQA数据集进行微调，增强了3D场景理解能力。

模型特点

增强的空间推理能力

通过合成VQA数据集微调，显著提升了对物体间空间关系的理解和推理能力。

多模态理解

能够同时处理视觉和语言信息，实现图像与文本的联合理解。

LoRA微调

采用低秩适应技术进行高效微调，保留了基础模型的通用能力。

模型能力

视觉问答

空间关系推理

距离估计

物体位置判断

多模态理解

使用案例

机器人导航

环境空间理解

帮助机器人理解环境中物体的空间关系

提高导航效率和安全性

增强现实

虚拟物体放置

判断虚拟物体在真实场景中的合理位置

提升AR体验的真实感

🚀 SpaceLLaVA

SpaceLLaVA 是一款多模态的视觉语言模型，它基于LLaVA - 1.5（13B）进行适配，并通过LoRA微调以增强空间推理能力。该模型使用合成VQA数据集进行训练，在定性和定量空间推理方面表现出色。

🚀 快速开始

GGUF

使用此笔记本，借助llama - cpp - python查询场景中对象之间的空间关系。

Docker

docker build -f Dockerfile -t spacellava-server:latest
docker run -it --rm --gpus all -p8000:8000 -p8001:8001 -p8002:8002 --shm-size 12G spacellava-server:latest
python3 client.py --image_path "https://remyx.ai/assets/spatialvlm/warehouse_rgb.jpg" --prompt "What is the distance between the man in the red hat and the pallet of boxes?"

✨ 主要特性

多模态能力：作为视觉语言模型，能够处理图像和文本信息。
强大的空间推理：经过微调，在定性和定量空间推理方面表现出色。
基于成熟架构：基于llava - v1.5 - 13b架构，具有13.4B参数（FP16）。

📦 安装指南

Docker安装

docker build -f Dockerfile -t spacellava-server:latest

Docker运行

docker run -it --rm --gpus all -p8000:8000 -p8001:8001 -p8002:8002 --shm-size 12G spacellava-server:latest

客户端调用

python3 client.py --image_path "https://remyx.ai/assets/spatialvlm/warehouse_rgb.jpg" --prompt "What is the distance between the man in the red hat and the pallet of boxes?"

📚 详细文档

模型信息

属性	详情
模型类型	多模态，视觉语言模型
架构	`llava - v1.5 - 13b`
模型大小	13.4B参数（FP16）
微调基础	liuhaotian/llava - v1.5 - 13b
微调策略	LoRA（低秩自适应）
许可证	Apache - 2.0

数据集与训练

数据集：SpaceLLaVA
代码：VQASynth
参考：[SpatialVLM](https://spatial - vlm.github.io/)

数据集包含约28,000个合成样本，使用模板化的VQA对和3D场景重建管道创建。数据格式包括图像（RGB）、问题（文本）和答案（文本），空间关系类型包括“距离”、“大小”、“在……左边”、“在……上方”、“更靠近”、“在……里面”等。

LoRA SFT脚本可在 trl 找到。查看 [SpaceVLMs集合](https://huggingface.co/collections/remyxai/spacevlms - 66a3dbb924756d98e7aec678)。

模型评估（即将推出）

计划使用VLMEvalKit在QSpatial基准、VSR等上进行评估。

试用

可在Discord上试用：http://discord.gg/b2yGuCNpuC

🔧 技术细节

SpaceLLaVA从 VQASynth 的管道中提炼3D场景理解，从而在空间推理方面表现出强大的能力。它基于LLaVA - 1.5（13B）进行微调，采用LoRA（低秩自适应）策略，在合成VQA数据集上进行训练，该数据集受 [SpatialVLM](https://spatial - vlm.github.io/) 方法的启发。

⚠️ 限制与伦理考虑

⚠️ 重要提示

模型在杂乱环境或特定相机视角下性能可能下降。

该模型使用合成推理在互联网图像数据集上进行微调。

基础模型（LLaVA）固有的多模态偏差可能仍然存在。

不建议用于安全关键或法律决策场景。

💡 使用建议

鼓励用户批判性地评估模型输出，并考虑针对特定领域进行微调以提高安全性和性能。

📄 许可证

本项目采用Apache - 2.0许可证。

@article{chen2024spatialvlm,
  title = {SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities},
  author = {Chen, Boyuan and Xu, Zhuo and Kirmani, Sean and Ichter, Brian and Driess, Danny and Florence, Pete and Sadigh, Dorsa and Guibas, Leonidas and Xia, Fei},
  journal = {arXiv preprint arXiv:2401.12168},
  year = {2024},
  url = {https://arxiv.org/abs/2401.12168},
}

@misc{liu2023llava,
      title={Visual Instruction Tuning},
      author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
      publisher={NeurIPS},
      year={2023},
}