T

Tinyllava Video Qwen2.5 3B Group 16 512

由Zhang199開發
TinyLLaVA-Video是基於Qwen2.5-3B和siglip-so400m-patch14-384構建的視頻理解模型,採用分組重採樣器處理視頻幀
下載量 76
發布時間 : 3/19/2025

模型概述

該模型結合了大型語言模型和視覺模塊,專門用於視頻文本轉換任務,能夠從視頻中提取關鍵幀並進行語義理解

模型特點

高效視頻處理
採用分組重採樣器從每段視頻中抽取16幀畫面,提高處理效率
多模態理解
結合視覺和語言模型,實現對視頻內容的深度理解
緊湊架構
僅3B參數的輕量級設計,在保持性能的同時降低計算需求

模型能力

視頻內容理解
視頻文本轉換
多模態推理
時序信息處理

使用案例

視頻分析
視頻內容摘要
自動生成視頻內容的文字摘要
在LongVideoBench上達到42.4分
視頻問答
回答關於視頻內容的各類問題
在Video-MME上達到47.0分
智能監控
異常行為檢測
識別監控視頻中的異常事件
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase