V

Videochat Flash Qwen2 5 2B Res448

由OpenGVLab開發
VideoChat-Flash-2B是基於UMT-L(300M)和Qwen2.5-1.5B構建的多模態模型,支持視頻文本轉文本任務,僅使用每幀16個標記,並擴展上下文窗口至128k。
下載量 904
發布時間 : 1/11/2025

模型概述

該模型專注於多模態任務,特別是視頻與文本之間的轉換,能夠處理長視頻輸入(最多約10,000幀)。

模型特點

高效視頻處理
僅使用每幀16個標記,顯著降低計算資源需求。
長視頻支持
通過Yarn擴展上下文窗口至128k,支持最多約10,000幀的輸入序列。
多模態能力
結合視覺和語言模型,實現視頻與文本之間的高效轉換。

模型能力

視頻文本轉換
多模態理解
長視頻處理

使用案例

視頻分析
視頻內容理解
分析視頻內容並生成文本描述。
在MLVU數據集上準確率達65.7%
長視頻處理
處理長視頻並提取關鍵信息。
在長視頻基準上準確率達58.3%
多模態測試
感知測試
進行多模態感知能力測試。
在感知測試上準確率達70.5%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase