I

Internvl 2 5 HiCo R64

Developed by OpenGVLab
基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型,通過提升感知細粒度細節和捕捉長時態結構的能力改進現有MLLM
Downloads 252
Release Time : 1/23/2025

Model Overview

InternVideo2.5是一款視頻多模態大語言模型,通過直接偏好優化(TPO)和自適應分層令牌壓縮(HiCo)技術增強感知能力和時空表示。

Model Features

長且豐富的上下文建模
通過LRC建模增強對視頻內容的理解能力
自適應分層令牌壓縮
使用HiCo技術實現緊湊的時空表示,每幀64個令牌
直接偏好優化
通過TPO進行密集視覺任務標註,提升模型性能

Model Capabilities

視頻內容理解
多模態推理
長視頻分析
視頻描述生成

Use Cases

視頻理解
視頻內容描述
對視頻內容進行詳細描述
可生成準確描述視頻內容的文本
視頻問答
回答關於視頻內容的問題
可準確回答視頻相關問題
長視頻分析
長視頻內容總結
對長視頻內容進行總結
可有效捕捉長視頻中的關鍵信息
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase