I

Internvideo2 Chat 8B

由OpenGVLab開發
InternVideo2-Chat-8B是一個結合大型語言模型(LLM)和視頻BLIP的視頻理解模型,通過漸進式學習方案構建,能夠進行視頻語義理解和人機交互。
下載量 492
發布時間 : 8/1/2024

模型概述

該模型通過將InternVideo2作為視頻編碼器,並與Mistral-7B等大型語言模型結合,構建了VideoLLM進行微調,提升了視頻語義內涵和人機交互友好性。

模型特點

漸進式學習方案
採用VideoChat的漸進式學習方案,訓練視頻BLIP模塊與開源LLM進行交互,視頻編碼器會持續更新。
高性能視頻理解
在MVBench和VideoMME等基準測試中表現出色,能夠準確理解視頻內容並進行語義分析。
多模態交互
結合視頻和文本輸入,支持複雜的多模態交互任務,如視頻內容描述和問答。

模型能力

視頻內容理解
視頻問答
視頻內容描述
多模態交互

使用案例

視頻分析
視頻內容描述
對視頻內容進行詳細描述,如動作細節、場景信息等。
視頻展示了一位女士在可俯瞰山景的屋頂練習瑜伽。她首先以手膝支撐姿勢開始,隨後過渡到下犬式,最終以站立姿勢結束。
視頻問答
回答關於視頻內容的特定問題,如人物服裝、動作細節等。
視頻中的女士穿著黑色背心和灰色瑜伽褲。
人機交互
自然語言交互
支持通過自然語言與模型進行交互,獲取視頻內容的詳細信息。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase