S

Spatialbot 3B

RussRobinによって開発
SpatialBotは空間理解と推論能力を備えた視覚言語モデルで、深度マップを精密に解析し高度なタスクを実行できます。
ダウンロード数 301
リリース時間 : 7/17/2024

モデル概要

Phi-2とSigLIPアーキテクチャを基に開発された融合型視覚言語モデルで、通常の視覚言語タスク及び空間理解ベンチマークテストで優れた性能を発揮します。

モデル特徴

空間理解能力
深度マップを精密に解析し空間推論が可能
マルチモーダル処理
視覚と言語入力を同時処理し、クロスモーダル理解を実現
効率的なアーキテクチャ
Phi-2とSigLIPに基づく効率的なアーキテクチャ設計

モデル能力

深度マップ解析
空間推論
視覚的質問応答
マルチモーダル理解

使用事例

空間理解
深度値クエリ
深度マップから指定座標点の深度値を読み取る
深度値を正確に返す
空間関係推論
シーン内の物体の空間的位置関係を分析
正確な空間記述を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase