V

Vica

nkkbrによって開発
ViCA-7Bは屋内動画環境における視覚空間推論に特化してファインチューニングされた視覚言語モデルで、LLaVA-Video-7B-Qwen2アーキテクチャを基盤とし、ViCA-322Kデータセットで訓練され、構造化空間アノテーションと指示ベースの複雑な推論タスクを重視しています。
ダウンロード数 41
リリース時間 : 4/21/2025

モデル概要

ViCA-7Bは屋内動画環境における視覚空間推論に焦点を当てており、物体カウント、絶対距離、物体サイズ、部屋サイズ、相対距離、相対方向、経路計画、出現順序などのタスクを処理できます。

モデル特徴

視覚空間推論
屋内動画環境における物体カウント、距離やサイズ推定などの視覚空間推論タスクに特化。
マルチモーダルアライメント
軽量プロジェクターにより動画コンテンツとテキストプロンプトを効果的に融合。
効率的な訓練
DeepSpeed ZeRO-3 Offloadと混合精度計算を使用した効率的な分散訓練。
固定長視覚トークン化
各動画を64フレームに均等サンプリングし、各フレームを210視覚トークンでエンコード、バッチ間のメモリ使用を一貫させ最適化を安定化。

モデル能力

視覚質問応答
動画理解
空間推論
視覚空間認知
マルチモーダル処理

使用事例

屋内ナビゲーションアシスタント
屋内ナビゲーション
ユーザーが屋内環境でナビゲーションや経路計画を行うのを支援。
ロボット計画と空間クエリ
ロボット経路計画
ロボットに空間理解と経路計画能力を提供。
スマートルームレイアウトとAR配置分析
部屋レイアウト分析
部屋のレイアウトと物体配置を分析し、最適化提案を提供。
エンボディドAIエージェントのシーン理解
シーン理解
AIエージェントが複雑な屋内シーンの空間関係を理解するのを支援。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase