I

Internvl 2 5 HiCo R16

Developed by FriendliAI
InternVideo2.5 是一款基于长且丰富的上下文(LRC)建模增强的视频多模态大语言模型(MLLM),构建于 InternVL2.5 之上。
Downloads 129
Release Time : 3/18/2025

Model Overview

InternVideo2.5 通过提升感知细粒度细节和捕捉长时态结构的能力,显著改进了现有的 MLLM。通过使用直接偏好优化(TPO)进行密集视觉任务标注,以及通过自适应分层令牌压缩(HiCo)实现紧凑的时空表示来实现这一点。

Model Features

长且丰富的上下文(LRC)建模
通过提升感知细粒度细节和捕捉长时态结构的能力,显著改进现有的 MLLM。
自适应分层令牌压缩(HiCo)
实现紧凑的时空表示,每帧仅使用 16 个令牌。
直接偏好优化(TPO)
通过密集视觉任务标注增强模型性能。

Model Capabilities

视频理解
视频描述生成
多模态对话
长视频分析

Use Cases

视频内容分析
视频详细描述
对视频内容进行详细描述,包括场景、动作和对象。
生成详细的视频描述文本
视频问答
回答关于视频内容的特定问题。
准确回答视频相关问题
长视频处理
长视频摘要
对长视频内容进行摘要和关键帧提取。
生成视频摘要和关键帧描述
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase