L

Llava NeXT Video 7B Hf

llava-hfによって開発
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
ダウンロード数 65.95k
リリース時間 : 6/5/2024

モデル概要

LLaVA-NeXTを基に構築された動画理解モデルで、画像と動画のマルチモーダル入力をサポートし、視覚的質問応答や内容記述などのタスクを実行できます。

モデル特徴

動画理解能力
100K VideoChatGPT-Instructデータでトレーニングされ、優れた動画内容理解能力を備えています
マルチモーダル入力サポート
画像と動画の両方を入力としてサポートし、複雑なマルチモーダルクエリを処理できます
オープンソースSOTA
VideoMMEベンチマークテストにおいて、現在のオープンソースモデルの中で最高の性能を発揮します
効率的な推論
4ビット量子化とFlash-Attention 2最適化をサポートし、計算リソースの要求を低減します

モデル能力

動画内容理解
画像内容分析
マルチモーダル質問応答
動画内容記述
クロスモーダル推論

使用事例

内容理解
動画内容分析
動画内のシーン、アクション、イベントを分析します
動画の内容と興味深い点を正確に記述します
画像質問応答
画像内容に関する様々な質問に答えます
画像内容の正確な説明を提供します
教育
教育動画理解
教育動画の内容を解析し、学習を支援します
複雑な概念の理解を学生に助けます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase