TinyLLaVA-Video開源視頻理解模型 - 免費部署，精準處理視頻幀

Tinyllava Video Qwen2.5 3B Group 16 512

由Zhang199開發

TinyLLaVA-Video是基於Qwen2.5-3B和siglip-so400m-patch14-384構建的視頻理解模型，採用分組重採樣器處理視頻幀

下載量 76

發布時間 : 3/19/2025

模型概述

該模型結合了大型語言模型和視覺模塊，專門用於視頻文本轉換任務，能夠從視頻中提取關鍵幀並進行語義理解

高效視頻處理

採用分組重採樣器從每段視頻中抽取16幀畫面，提高處理效率

多模態理解

結合視覺和語言模型，實現對視頻內容的深度理解

緊湊架構

僅3B參數的輕量級設計，在保持性能的同時降低計算需求

視頻內容理解

視頻文本轉換

多模態推理

時序信息處理

視頻分析

視頻內容摘要

自動生成視頻內容的文字摘要

在LongVideoBench上達到42.4分

視頻問答

回答關於視頻內容的各類問題

在Video-MME上達到47.0分

智能監控

異常行為檢測

識別監控視頻中的異常事件

模型 (HF 路徑)	每查詢幀數	Video-MME	MVBench	LongVideoBench	MLVU
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-1fps-512	1fps/512	47.7	47.0	42.0	52.6
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-16-512	16/512	47.0	45.5	42.4	52.5
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Naive-16-512	16/512	44.7	42.5	37.6	48.1
Zhang199/TinyLLaVA-Video-Phi2-Naive-16-512	16/512	42.7	42.0	42.2	46.5