V

Videollm Online 8b V1plus

由chenjoya開發
VideoLLM-online是一個基於Llama-3-8B-Instruct的多模態大語言模型,專注於在線視頻理解和視頻-文本生成任務。
下載量 1,688
發布時間 : 6/22/2024

模型概述

該模型結合了視覺和語言處理能力,能夠即時處理長達10分鐘的視頻流,支持2-10幀/秒的幀率分析,適用於在線視頻理解和交互式應用場景。

模型特點

即時視頻處理
支持2-10幀/秒的即時視頻流處理,可處理長達10分鐘的視頻內容
多模態理解
結合視覺編碼器(SigLIP)和語言模型(Llama-3),實現視頻內容的深度理解
高效視覺編碼
採用CLS標記+平均池化的3x3標記策略,在384分辨率下保持高效處理
大規模訓練數據
使用Ego4D數據集的134K視頻樣本進行訓練,涵蓋多樣場景

模型能力

在線視頻理解
視頻內容描述生成
多模態推理
即時視頻交互

使用案例

視頻分析
視頻內容摘要
自動生成長視頻的內容摘要
可處理10分鐘視頻並生成準確摘要
即時視頻問答
對正在播放的視頻內容進行即時問答
支持2-10幀/秒的即時響應
人機交互
視頻輔助對話
基於視頻內容的自然語言對話系統
可與用戶進行關於視頻內容的深入交流
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase