VideoRefer-7B-stage2.5オープンソースマルチモーダルモデル

Videorefer 7B Stage2.5

DAMO-NLP-SGによって開発

VideoRefer-7Bはビデオ大規模言語モデルに基づくマルチモーダルモデルで、時空間物体理解タスクに特化しています。

ダウンロード数 20

リリース時間 : 12/31/2024

モデル概要

VideoReferスイートはビデオ大規模言語モデルに基づく時空間物体理解の高度なソリューションで、視覚質問応答タスクをサポートします。

マルチモーダル理解

視覚と言語情報を統合し、ビデオコンテンツの時空間物体理解を実現

大規模言語モデル統合

Qwen2-7B-Instruct言語デコーダーに基づき、強力な言語理解と生成能力を備える

効率的な視覚符号化

siglip-so400m-patch14-384視覚エンコーダーを使用し、ビデオフレーム情報を効率的に処理

ビデオコンテンツ理解

時空間物体位置特定

視覚質問応答

マルチモーダル推論

ビデオ分析

ビデオ物体追跡

ビデオ内の特定物体の時空間位置を識別・追跡

ビデオ質問応答システム

ビデオコンテンツに関する自然言語質問に回答

インテリジェント監視

異常行動検出

監視ビデオ中の異常な物体行動を分析

モデル名	ビジュアルエンコーダ	言語デコーダ	トレーニングフレーム数
VideoRefer-7B	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoRefer-7B-stage2	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoRefer-7B-stage2.5	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16