V

Videochat Flash Qwen2 5 7B InternVideo2 1B

由OpenGVLab開發
基於InternVideo2-1B和Qwen2.5-7B構建的多模態視頻文本模型,每幀僅使用16個標記,支持長達10,000幀的輸入序列。
下載量 193
發布時間 : 2/19/2025

模型概述

該模型是一個高效的多模態視頻文本處理模型,專注於視頻理解和文本生成任務,特別適合長視頻內容分析。

模型特點

高效視頻處理
每幀僅使用16個標記,顯著降低計算資源需求
超長上下文支持
通過Yarn技術擴展至128k上下文窗口,支持約10,000幀輸入
多模態理解
結合視覺和語言模型,實現視頻內容的深度理解

模型能力

視頻內容理解
長視頻分析
多模態推理
視頻問答

使用案例

視頻內容分析
長視頻摘要
對長達數小時的視頻內容進行關鍵信息提取和摘要
在長視頻基準測試中準確率達64.5%
視頻問答
回答關於視頻內容的複雜問題
在MLVU數據集上準確率達73.4%
多模態理解
視頻場景理解
識別和分析視頻中的場景、動作和對象
在感知測試中準確率達76.3%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase