I

Internvl 2 5 HiCo R64

由OpenGVLab開發
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
下載量 252
發布時間 : 1/23/2025

模型概述

InternVideo2.5是一款視頻多模態大語言模型,通過直接偏好優化(TPO)和自適應分層令牌壓縮(HiCo)技術增強感知能力和時空表示。

模型特點

長且豐富的上下文建模
通過LRC建模增強對視頻內容的理解能力
自適應分層令牌壓縮
使用HiCo技術實現緊湊的時空表示,每幀64個令牌
直接偏好優化
通過TPO進行密集視覺任務標註,提升模型性能

模型能力

視頻內容理解
多模態推理
長視頻分析
視頻描述生成

使用案例

視頻理解
視頻內容描述
對視頻內容進行詳細描述
可生成準確描述視頻內容的文本
視頻問答
回答關於視頻內容的問題
可準確回答視頻相關問題
長視頻分析
長視頻內容總結
對長視頻內容進行總結
可有效捕捉長視頻中的關鍵信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase