I

Internvl 2 5 HiCo R16

FriendliAIによって開発
InternVideo2.5は、長く豊富な文脈(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデル(MLLM)で、InternVL2.5上に構築されています。
ダウンロード数 129
リリース時間 : 3/18/2025

モデル概要

InternVideo2.5は、細かいディテールの知覚能力と長時間の時間的構造を捉える能力を向上させることで、既存のMLLMを大幅に改善しました。これは、高密度視覚タスクのアノテーションに直接選好最適化(TPO)を使用し、適応型階層トークン圧縮(HiCo)を通じてコンパクトな時空間表現を実現することで行われました。

モデル特徴

長く豊富な文脈(LRC)モデリング
細かいディテールの知覚能力と長時間の時間的構造を捉える能力を向上させ、既存のMLLMを大幅に改善します。
適応型階層トークン圧縮(HiCo)
コンパクトな時空間表現を実現し、1フレームあたりわずか16トークンを使用します。
直接選好最適化(TPO)
高密度視覚タスクのアノテーションを通じてモデル性能を強化します。

モデル能力

動画理解
動画説明生成
マルチモーダル対話
長編動画分析

使用事例

動画コンテンツ分析
動画詳細説明
動画の内容について、シーン、アクション、オブジェクトを含む詳細な説明を行います。
詳細な動画説明テキストを生成
動画質問応答
動画内容に関する特定の質問に答えます。
動画関連の質問に正確に回答
長編動画処理
長編動画要約
長編動画の内容を要約し、キーフレームを抽出します。
動画要約とキーフレーム説明を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase