V

Videochat Flash Qwen2 5 7B 1M Res224

由OpenGVLab開發
VideoChat-Flash是基於UMT-L和Qwen2.5-7B-1M構建的多模態模型,支持長視頻理解,上下文窗口擴展至1M。
下載量 64
發布時間 : 2/19/2025

模型概述

該模型專注於視頻與文本的多模態交互,能夠處理長達約50,000幀的視頻輸入,適用於視頻理解和分析任務。

模型特點

高效長視頻處理
通過Yarn技術擴展上下文窗口至1M,支持處理長達約50,000幀的視頻輸入。
低標記消耗
僅使用每幀16個標記,實現高效的視頻內容理解。
多模態能力
結合視覺和語言理解能力,實現視頻與文本的交互。

模型能力

視頻內容理解
多模態交互
長視頻處理
文本生成

使用案例

視頻分析
視頻問答
基於視頻內容回答相關問題
在MLVU數據集上達到74.1%準確率
視頻內容理解
理解並描述長視頻內容
在LongVideoBench上達到66.5%準確率
多模態測試
感知測試
多模態感知能力評估
在Perception Test上達到75.4%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase