I

Internvl 2 5 HiCo R16

由OpenGVLab開發
InternVideo2.5 是一個基於 InternVL2.5 構建的視頻多模態大語言模型(MLLM),通過長且豐富的上下文(LRC)建模進行了增強,能夠感知細粒度細節並捕捉長時態結構。
下載量 1,914
發布時間 : 1/23/2025

模型概述

InternVideo2.5 是一個視頻多模態大語言模型,通過直接偏好優化(TPO)進行密集視覺任務標註,以及通過自適應分層令牌壓縮(HiCo)實現緊湊的時空表示,顯著提升了現有 MLLM 的能力。

模型特點

長且豐富的上下文(LRC)建模
通過 LRC 建模增強,能夠感知細粒度細節並捕捉長時態結構。
自適應分層令牌壓縮(HiCo)
實現緊湊的時空表示,提升模型效率。
直接偏好優化(TPO)
通過密集視覺任務標註優化模型性能。

模型能力

視頻理解
多模態推理
長視頻分析
細粒度細節感知

使用案例

視頻分析
視頻內容描述
詳細描述視頻內容,包括場景、人物和動作。
高準確率的視頻內容理解
長視頻結構分析
捕捉長視頻中的時態結構和關鍵事件。
59.6 的準確率(LongVideoBench)
多模態任務
多模態推理
結合視頻和文本信息進行復雜推理。
74.0 的準確率(MVBench)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase