S

Spacellava

由remyxai開發
SpaceLLaVA是基於LLaVA-1.5改進的視覺語言模型,通過LoRA微調提升空間推理能力,適用於定量和定性空間推理任務。
下載量 324
發布時間 : 3/4/2024

模型概述

SpaceLLaVA是一個多模態視覺語言模型,專注於空間推理任務,如距離估計、物體位置關係判斷等。它通過合成VQA數據集進行微調,增強了3D場景理解能力。

模型特點

增強的空間推理能力
通過合成VQA數據集微調,顯著提升了對物體間空間關係的理解和推理能力。
多模態理解
能夠同時處理視覺和語言信息,實現圖像與文本的聯合理解。
LoRA微調
採用低秩適應技術進行高效微調,保留了基礎模型的通用能力。

模型能力

視覺問答
空間關係推理
距離估計
物體位置判斷
多模態理解

使用案例

機器人導航
環境空間理解
幫助機器人理解環境中物體的空間關係
提高導航效率和安全性
增強現實
虛擬物體放置
判斷虛擬物體在真實場景中的合理位置
提升AR體驗的真實感
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase