I

Internvl 2 5 HiCo R64

OpenGVLabによって開発
長く豊富なコンテキスト(LRC)モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善
ダウンロード数 252
リリース時間 : 1/23/2025

モデル概要

InternVideo2.5は動画マルチモーダル大規模言語モデルで、直接選好最適化(TPO)と適応的階層的トークン圧縮(HiCo)技術により知覚能力と時空間表現を強化

モデル特徴

長く豊富なコンテキストモデリング
LRCモデリングにより動画コンテンツの理解能力を強化
適応的階層的トークン圧縮
HiCo技術を使用してコンパクトな時空間表現を実現、1フレームあたり64トークン
直接選好最適化
TPOによる高密度視覚タスクのアノテーションでモデル性能を向上

モデル能力

動画コンテンツ理解
マルチモーダル推論
長動画分析
動画記述生成

使用事例

動画理解
動画コンテンツ記述
動画コンテンツを詳細に記述
動画コンテンツを正確に記述するテキストを生成可能
動画質問応答
動画コンテンツに関する質問に回答
動画関連の質問に正確に回答可能
長動画分析
長動画コンテンツ要約
長動画のコンテンツを要約
長動画のキー情報を効果的に捕捉可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase