I

Internvideo2 5 Chat 8B

由OpenGVLab開發
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
下載量 8,265
發布時間 : 1/22/2025

模型概述

InternVideo2.5是一款視頻多模態大語言模型,通過直接偏好優化(TPO)進行密集視覺任務標註,以及通過自適應分層令牌壓縮(HiCo)實現緊湊的時空表示,顯著提升了感知細粒度細節和捕捉長時序結構的能力。

模型特點

長且豐富上下文(LRC)建模
通過增強感知細粒度細節和捕捉長時序結構的能力,顯著改進現有MLLM模型
直接偏好優化(TPO)
通過密集視覺任務標註提升模型性能
自適應分層令牌壓縮(HiCo)
實現緊湊的時空表示,提高處理效率

模型能力

視頻內容理解
視頻文本生成
多模態推理
長視頻處理

使用案例

視頻內容分析
視頻內容描述
對視頻內容進行詳細描述
生成準確、詳細的視頻描述文本
視頻問答
回答關於視頻內容的問題
準確回答關於視頻中人物、動作、場景等問題
長視頻處理
長視頻摘要
對長視頻內容進行摘要
生成簡潔的長視頻內容摘要
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase