TinyLLaVA-Videoオープンソース動画理解モデル - 無料でデプロイ可能、動画フレームを高精度に処理

Tinyllava Video Qwen2.5 3B Group 16 512

Zhang199によって開発

TinyLLaVA-VideoはQwen2.5-3Bとsiglip-so400m-patch14-384を基に構築された動画理解モデルで、グループリサンプラーを使用して動画フレームを処理します

ダウンロード数 76

リリース時間 : 3/19/2025

モデル概要

このモデルは大規模言語モデルと視覚モジュールを組み合わせ、動画テキスト変換タスクに特化しており、動画からキーフレームを抽出し意味理解を行うことができます

効率的な動画処理

グループリサンプラーを使用して各動画から16フレームを抽出し、処理効率を向上させます

マルチモーダル理解

視覚と言語モデルを統合し、動画コンテンツの深い理解を実現します

コンパクトなアーキテクチャ

わずか3Bパラメータの軽量設計で、性能を維持しながら計算リソースを削減します

動画コンテンツ理解

動画テキスト変換

マルチモーダル推論

時系列情報処理

動画分析

動画コンテンツ要約

動画コンテンツのテキスト要約を自動生成

LongVideoBenchで42.4点を達成

動画質問応答

動画内容に関する様々な質問に回答

Video-MMEで47.0点を達成

インテリジェント監視

異常行動検知

監視カメラ映像から異常イベントを識別

モデル (HFパス)	フレーム数/クエリ	Video-MME	MVBench	LongVideoBench	MLVU
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-1fps-512	1fps/512	47.7	47.0	42.0	52.6
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Group-16-512	16/512	47.0	45.5	42.4	52.5
Zhang199/TinyLLaVA-Video-Qwen2.5-3B-Naive-16-512	16/512	44.7	42.5	37.6	48.1
Zhang199/TinyLLaVA-Video-Phi2-Naive-16-512	16/512	42.7	42.0	42.2	46.5