S

Spacellava

remyxaiによって開発
SpaceLLaVAはLLaVA-1.5を改良した視覚言語モデルで、LoRAファインチューニングにより空間推論能力を向上させ、定量的・定性的な空間推論タスクに適しています。
ダウンロード数 324
リリース時間 : 3/4/2024

モデル概要

SpaceLLaVAは、距離推定や物体の位置関係判断などの空間推論タスクに特化したマルチモーダル視覚言語モデルです。合成VQAデータセットによるファインチューニングにより、3Dシーン理解能力が強化されています。

モデル特徴

強化された空間推論能力
合成VQAデータセットによるファインチューニングにより、物体間の空間関係の理解と推論能力が大幅に向上しました。
マルチモーダル理解
視覚情報と言語情報を同時に処理し、画像とテキストの統合的理解を実現します。
LoRAファインチューニング
低ランク適応技術を用いた効率的なファインチューニングにより、ベースモデルの汎用能力を保持しています。

モデル能力

視覚質問応答
空間関係推論
距離推定
物体位置判断
マルチモーダル理解

使用事例

ロボットナビゲーション
環境空間理解
ロボットが環境内の物体の空間関係を理解するのを支援
ナビゲーションの効率と安全性の向上
拡張現実
仮想物体配置
実シーンにおける仮想物体の適切な位置を判断
AR体験のリアリティ向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase