L

Llavaction 7B

由MLAdaptiveIntelligence開發
LLaVAction是一個面向動作識別的多模態大語言模型評估與訓練框架,基於Qwen2語言模型架構,支持第一人稱視角視頻理解。
下載量 149
發布時間 : 3/24/2025

模型概述

LLaVAction-7B模型專注於從第一人稱視角視頻理解人類動作,支持處理最多64幀視頻輸入,在多個視頻理解基準測試上表現優異。

模型特點

第一人稱視角理解
專門針對第一人稱視角視頻優化,能準確理解自我中心視角下的動作和交互
長視頻處理能力
支持處理最多64幀視頻輸入,能有效理解長視頻內容
多模態融合
結合視覺和語言信息,實現高質量的視頻內容理解和問答
高性能基準測試表現
在多個視頻理解基準測試上達到領先水平,如EgoSchema(59%)、MVBench(61.1%)等

模型能力

視頻內容理解
動作識別
多模態問答
長視頻分析
第一人稱視角理解

使用案例

智能家居
廚房活動分析
分析用戶在廚房中的烹飪活動
能準確識別切菜、烹飪等動作
行為研究
日常活動分析
研究人類日常活動模式
可識別和分類各種日常活動
輔助技術
動作指導
為特殊需求用戶提供動作指導
能理解並指導用戶完成特定動作
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase