L

Llava NeXT Video 34B Hf

llava-hfによって開発
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を備えています。
ダウンロード数 2,232
リリース時間 : 6/6/2024

モデル概要

LLaVA-NeXTを基に構築された動画理解モデルで、動画と画像データの混合でチューニングされ、VideoMMEベンチマークでリーダー的なパフォーマンスを示します。

モデル特徴

動画理解能力
32フレームを均等にサンプリングして動画コンテンツを処理し、優れた動画理解能力を備えています
マルチモーダル命令追従
動画と画像に基づくマルチモーダル命令を理解し実行できます
オープンソースモデルのリーダー
現在VideoMMEベンチマークでオープンソースモデルとしてトップの地位にあります

モデル能力

動画コンテンツ理解
マルチモーダル対話
動画質問応答
動画コンテンツ記述

使用事例

動画コンテンツ分析
動画質問応答システム
動画コンテンツに基づいてユーザーの質問に答えます
VideoMMEベンチマークで優れた成績を収めています
動画コンテンツ要約
動画コンテンツの文章記述と要約を生成します
教育応用
教育動画分析
学生が教育動画の内容を理解し質問に答えるのを支援します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase