I

Internvideo2 Chat 8B

OpenGVLabによって開発
InternVideo2-Chat-8Bは大規模言語モデル(LLM)と動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、動画の意味理解と人間とのインタラクションが可能です。
ダウンロード数 492
リリース時間 : 8/1/2024

モデル概要

このモデルはInternVideo2を動画エンコーダーとして使用し、Mistral-7Bなどの大規模言語モデルと組み合わせ、VideoLLMをファインチューニングすることで、動画の意味内容と人間とのインタラクションの親和性を向上させています。

モデル特徴

段階的学習スキーム
VideoChatの段階的学習スキームを採用し、動画BLIPモジュールとオープンソースLLMのインタラクションを訓練し、動画エンコーダーは継続的に更新されます。
高性能動画理解
MVBenchやVideoMMEなどのベンチマークテストで優れた性能を発揮し、動画内容を正確に理解し意味分析が可能です。
マルチモーダルインタラクション
動画とテキスト入力を組み合わせ、動画内容の説明や質問応答などの複雑なマルチモーダルタスクをサポートします。

モデル能力

動画内容理解
動画質問応答
動画内容説明
マルチモーダルインタラクション

使用事例

動画分析
動画内容説明
動画内容について、動作の詳細やシーン情報などを詳細に説明します。
動画では、山の景色を一望できる屋上で女性がヨガを練習している様子が映っています。彼女はまず手と膝で支える姿勢から始め、その後ダウンドッグの姿勢に移行し、最終的に立位の姿勢で終了しています。
動画質問応答
登場人物の服装や動作の詳細など、動画内容に関する特定の質問に回答します。
動画中の女性は黒いタンクトップとグレーのヨガパンツを着用しています。
人間とのインタラクション
自然言語インタラクション
自然言語を通じてモデルとインタラクションし、動画内容の詳細情報を取得できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase