I

Internvl 2 5 HiCo R16

OpenGVLabによって開発
InternVideo2.5は、InternVL2.5を基盤としたビデオマルチモーダル大規模言語モデル(MLLM)で、長く豊富なコンテキスト(LRC)モデリングによって強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。
ダウンロード数 1,914
リリース時間 : 1/23/2025

モデル概要

InternVideo2.5は、直接選好最適化(TPO)による高密度視覚タスクのアノテーションと、適応型階層的トークン圧縮(HiCo)によるコンパクトな時空間表現を実現し、既存のMLLMの能力を大幅に向上させたビデオマルチモーダル大規模言語モデルです。

モデル特徴

長く豊富なコンテキスト(LRC)モデリング
LRCモデリングにより強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。
適応型階層的トークン圧縮(HiCo)
コンパクトな時空間表現を実現し、モデルの効率を向上させます。
直接選好最適化(TPO)
高密度視覚タスクのアノテーションによりモデルの性能を最適化します。

モデル能力

ビデオ理解
マルチモーダル推論
長尺ビデオ分析
細粒度詳細知覚

使用事例

ビデオ分析
ビデオ内容の説明
シーン、人物、アクションを含むビデオ内容を詳細に説明します。
高精度のビデオ内容理解
長尺ビデオ構造分析
長尺ビデオ中の時系列構造と主要イベントを捕捉します。
59.6の精度(LongVideoBench)
マルチモーダルタスク
マルチモーダル推論
ビデオとテキスト情報を組み合わせて複雑な推論を行います。
74.0の精度(MVBench)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase