S

Spaceqwen2.5 VL 3B Instruct

remyxaiによって開発
Qwen2.5-VL-3B-Instructをファインチューニングしたマルチモーダル視覚言語モデルで、空間推論能力に特化
ダウンロード数 7,446
リリース時間 : 1/29/2025

モデル概要

このモデルはLoRAファインチューニングにより空間推論能力を強化し、物体間の空間関係に関連する視覚質問応答タスクを処理可能。ロボットナビゲーションやエンボディドAIなどのシナリオに適応

モデル特徴

強化された空間推論
合成データによる訓練で、距離推定や方位判断などの空間推論能力を特別に最適化
マルチモーダル理解
画像とテキスト入力を同時に処理し、視覚シーン内の物体関係を理解可能
軽量ファインチューニング
LoRA手法を採用した効率的なファインチューニングで、基本モデルの能力を維持しながら特定機能を追加

モデル能力

視覚質問応答
空間関係推論
距離推定
物体位置特定
マルチモーダル理解

使用事例

ロボットナビゲーション
倉庫環境ナビゲーション
ロボットが倉庫環境内の物体の空間関係を理解するのを支援
物体の位置や距離に関する質問に正確に回答可能
エンボディドAI
環境インタラクション
エンボディドエージェントに空間認識能力を提供
エージェントが環境とより良く相互作用できるようにする
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase