V

Vica

由nkkbr開發
ViCA-7B是一款專為室內視頻環境中的視覺空間推理而微調的視覺語言模型,基於LLaVA-Video-7B-Qwen2架構構建,使用ViCA-322K數據集進行訓練,強調結構化空間標註和基於指令的複雜推理任務。
下載量 41
發布時間 : 4/21/2025

模型概述

ViCA-7B專注於室內視頻環境中的視覺空間推理,能夠處理物體計數、絕對距離、物體尺寸、房間尺寸、相對距離、相對方向、路徑規劃和出現順序等任務。

模型特點

視覺空間推理
專注於室內視頻環境中的視覺空間推理任務,如物體計數、距離和尺寸估計等。
多模態對齊
通過輕量級投影器實現視頻內容與文本提示的有效融合。
高效訓練
使用DeepSpeed ZeRO-3 Offload和混合精度計算進行高效分佈式訓練。
固定長度視覺標記化
每個視頻均勻採樣為64幀,每幀編碼為210個視覺標記,確保跨批次的內存使用一致和優化穩定。

模型能力

視覺問答
視頻理解
空間推理
視覺空間認知
多模態處理

使用案例

室內導航助手
室內導航
幫助用戶在室內環境中進行導航和路徑規劃。
機器人規劃和空間查詢
機器人路徑規劃
為機器人提供空間理解和路徑規劃能力。
智能房間佈置和AR佈局分析
房間佈置分析
分析房間佈局和物體擺放,提供優化建議。
具身AI代理的場景理解
場景理解
幫助AI代理理解複雜室內場景的空間關係。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase