I

Internvl 2 5 HiCo R16

由FriendliAI開發
InternVideo2.5 是一款基於長且豐富的上下文(LRC)建模增強的視頻多模態大語言模型(MLLM),構建於 InternVL2.5 之上。
下載量 129
發布時間 : 3/18/2025

模型概述

InternVideo2.5 通過提升感知細粒度細節和捕捉長時態結構的能力,顯著改進了現有的 MLLM。通過使用直接偏好優化(TPO)進行密集視覺任務標註,以及通過自適應分層令牌壓縮(HiCo)實現緊湊的時空表示來實現這一點。

模型特點

長且豐富的上下文(LRC)建模
通過提升感知細粒度細節和捕捉長時態結構的能力,顯著改進現有的 MLLM。
自適應分層令牌壓縮(HiCo)
實現緊湊的時空表示,每幀僅使用 16 個令牌。
直接偏好優化(TPO)
通過密集視覺任務標註增強模型性能。

模型能力

視頻理解
視頻描述生成
多模態對話
長視頻分析

使用案例

視頻內容分析
視頻詳細描述
對視頻內容進行詳細描述,包括場景、動作和對象。
生成詳細的視頻描述文本
視頻問答
回答關於視頻內容的特定問題。
準確回答視頻相關問題
長視頻處理
長視頻摘要
對長視頻內容進行摘要和關鍵幀提取。
生成視頻摘要和關鍵幀描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase