L

Llava Video 7B Qwen2

lmms-labによって開発
LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。
ダウンロード数 34.28k
リリース時間 : 9/2/2024

モデル概要

このモデルはLLaVA-ビデオ-178KとLLaVA-OneVisionデータセットでトレーニングされ、画像、複数画像、ビデオとのインタラクション能力を備えており、主にビデオ理解タスクを対象としています。

モデル特徴

マルチモーダルビデオ理解
ビデオ入力を処理し、関連するテキスト記述を生成したり質問に答えたりすることをサポート
長文脈サポート
32Kトークンの文脈ウィンドウをサポートし、比較的長いビデオコンテンツを処理可能
マルチフレーム処理能力
最大64フレームのビデオ入力を処理可能

モデル能力

ビデオコンテンツ理解
ビデオQA
ビデオ記述生成
マルチモーダル推論

使用事例

ビデオ理解
ビデオコンテンツ記述
入力ビデオに基づいて詳細なコンテンツ記述を生成
ビデオQA
ビデオコンテンツに関する様々な質問に回答
複数のビデオQAデータセットで優れたパフォーマンスを発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase