I

Internvideo2 5 Chat 8B

OpenGVLabによって開発
InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。
ダウンロード数 8,265
リリース時間 : 1/22/2025

モデル概要

InternVideo2.5は、直接選好最適化(TPO)による高密度視覚タスクのアノテーションと、適応型階層トークン圧縮(HiCo)によるコンパクトな時空間表現を実現することで、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を大幅に向上させたビデオマルチモーダル大規模言語モデルです。

モデル特徴

長く豊富なコンテキスト(LRC)モデリング
細粒度の詳細を感知し、長時間の時系列構造を捉える能力を強化することで、既存のMLLMモデルを大幅に改善
直接選好最適化(TPO)
高密度視覚タスクのアノテーションによりモデル性能を向上
適応型階層トークン圧縮(HiCo)
コンパクトな時空間表現を実現し、処理効率を向上

モデル能力

ビデオ内容理解
ビデオテキスト生成
マルチモーダル推論
長動画処理

使用事例

ビデオ内容分析
ビデオ内容記述
ビデオ内容を詳細に記述
正確で詳細なビデオ記述テキストを生成
ビデオ質問応答
ビデオ内容に関する質問に回答
ビデオ中の人物、動作、シーンなどに関する質問に正確に回答
長動画処理
長動画要約
長動画内容を要約
簡潔な長動画内容の要約を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase