S

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

由shi-labs開發
採用慢-快架構的視頻多模態大語言模型,平衡時間分辨率和空間細節,支持64幀視頻理解
下載量 184
發布時間 : 3/19/2025

模型概述

該模型創新性地採用慢-快雙token策略處理視頻輸入,結合Qwen2-7B語言模型和ConvNeXt-576視覺編碼器,在有限計算預算下實現高效的視頻理解

模型特點

慢-快雙token策略
通過快token快速瀏覽視頻內容,慢token精細提取視覺細節,實現高效視頻理解
高幀率處理
支持64幀視頻輸入,時間分辨率顯著優於傳統方法
線性複雜度交叉注意力
特製混合解碼層實現文本對原始視頻特徵的線性複雜度交叉注意力

模型能力

視頻內容理解
視頻內容描述生成
多模態推理
長視頻處理

使用案例

視頻內容分析
視頻內容描述
對輸入視頻生成詳細的內容描述
在視頻理解基準測試中優於純自注意力基線
智能監控
監控視頻分析
分析監控視頻中的關鍵事件
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase