T

Tinyllava Video Qwen2.5 3B Group 16 512

Zhang199によって開発
TinyLLaVA-VideoはQwen2.5-3Bとsiglip-so400m-patch14-384を基に構築された動画理解モデルで、グループリサンプラーを使用して動画フレームを処理します
ダウンロード数 76
リリース時間 : 3/19/2025

モデル概要

このモデルは大規模言語モデルと視覚モジュールを組み合わせ、動画テキスト変換タスクに特化しており、動画からキーフレームを抽出し意味理解を行うことができます

モデル特徴

効率的な動画処理
グループリサンプラーを使用して各動画から16フレームを抽出し、処理効率を向上させます
マルチモーダル理解
視覚と言語モデルを統合し、動画コンテンツの深い理解を実現します
コンパクトなアーキテクチャ
わずか3Bパラメータの軽量設計で、性能を維持しながら計算リソースを削減します

モデル能力

動画コンテンツ理解
動画テキスト変換
マルチモーダル推論
時系列情報処理

使用事例

動画分析
動画コンテンツ要約
動画コンテンツのテキスト要約を自動生成
LongVideoBenchで42.4点を達成
動画質問応答
動画内容に関する様々な質問に回答
Video-MMEで47.0点を達成
インテリジェント監視
異常行動検知
監視カメラ映像から異常イベントを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase