L

Llava NeXT Video 7B DPO Hf

llava-hfによって開発
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより最適化され、優れた動画理解能力を備えています。
ダウンロード数 12.61k
リリース時間 : 6/6/2024

モデル概要

LLaVa-NeXTを基に構築された動画理解モデルで、動画と画像データの混合によるチューニングにより、より優れた動画理解能力を獲得し、複数の視覚入力とプロンプト生成をサポートします。

モデル特徴

マルチモーダル理解
画像と動画の入力を同時にサポートし、マルチモーダル指示を理解可能
動画理解能力
VideoMMEベンチマークテストでリーダーシップを発揮し、優れた動画分析能力を備えています
オープンソースでカスタマイズ可能
完全なオープンソースで、4ビット量子化とFlash-Attention最適化をサポート

モデル能力

動画コンテンツ理解
画像コンテンツ分析
マルチモーダル指示追従
動画質問応答
動画コンテンツ記述

使用事例

動画コンテンツ分析
動画コンテンツ理解
動画コンテンツを分析し、関連する質問に回答
動画内の動作、シーン、イベントを正確に理解可能
教育支援
教育動画分析
教育動画の内容を解析し、学生の質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase