L

Llavaction 0.5B

由MLAdaptiveIntelligence開發
LLaVAction是一個用於動作識別的多模態大語言模型,基於Qwen2語言模型,在EPIC-KITCHENS-100-MQA數據集上訓練而成。
下載量 215
發布時間 : 3/24/2025

模型概述

該模型專注於視頻動作識別任務,能夠理解第一人稱視角視頻中的動作內容,適用於與EPIC-KITCHENS-100類似的視頻內容分析。

模型特點

多模態理解能力
結合視覺和語言信息,能夠理解視頻內容並生成相關描述
第一人稱視角動作識別
專門針對第一人稱視角視頻中的手部與物體交互動作進行識別
大上下文窗口
支持32K令牌的上下文窗口,適合處理長視頻內容

模型能力

視頻內容理解
動作識別
多模態問答
視頻幀分析
時間信息處理

使用案例

智能家居
廚房活動分析
識別用戶在廚房中的各種操作活動
可準確識別切菜、烹飪等常見廚房動作
行為研究
日常活動分析
研究人類日常活動模式和行為習慣
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase