L

Llavaction 7B

Developed by MLAdaptiveIntelligence
LLaVActionは動作認識向けのマルチモーダル大規模言語モデル評価・トレーニングフレームワークで、Qwen2言語モデルアーキテクチャを基盤とし、一人称視点の動画理解をサポートします。
Downloads 149
Release Time : 3/24/2025

Model Overview

LLaVAction-7Bモデルは一人称視点動画からの人間の動作理解に特化しており、最大64フレームの動画入力を処理可能で、複数の動画理解ベンチマークで優れた性能を発揮します。

Model Features

一人称視点理解
一人称視点動画に最適化されており、自己中心視点での動作やインタラクションを正確に理解可能
長尺動画処理能力
最大64フレームの動画入力を処理可能で、長尺動画の内容を効果的に理解
マルチモーダル融合
視覚と言語情報を統合し、高品質な動画内容理解と質問応答を実現
高性能ベンチマーク結果
EgoSchema(59%)、MVBench(61.1%)など、複数の動画理解ベンチマークでリーダーボードレベルを達成

Model Capabilities

動画内容理解
動作認識
マルチモーダル質問応答
長尺動画分析
一人称視点理解

Use Cases

スマートホーム
キッチン活動分析
ユーザーのキッチンでの調理活動を分析
野菜切りや調理などの動作を正確に識別可能
行動研究
日常活動分析
人間の日常活動パターンを研究
様々な日常活動を識別・分類可能
支援技術
動作ガイダンス
特別なニーズを持つユーザーに動作指導を提供
特定の動作を理解しユーザーに指導可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase