S

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

shi-labsによって開発
スローファストアーキテクチャを採用した動画マルチモーダル大規模言語モデルで、時間解像度と空間詳細のバランスを取り、64フレームの動画理解をサポート
ダウンロード数 184
リリース時間 : 3/19/2025

モデル概要

このモデルは革新的なスローファストデュアルトークン戦略で動画入力を処理し、Qwen2-7B言語モデルとConvNeXt-576視覚エンコーダを組み合わせ、限られた計算予算で効率的な動画理解を実現

モデル特徴

スローファストデュアルトークン戦略
ファストトークンで動画内容を素早く把握、スロートークンで視覚的詳細を精密に抽出し、効率的な動画理解を実現
高フレームレート処理
64フレームの動画入力をサポートし、時間解像度が従来手法を大幅に上回る
線形複雑度クロスアテンション
特別設計の混合デコード層により、テキストと元の動画特徴量の線形複雑度クロスアテンションを実現

モデル能力

動画内容理解
動画内容記述生成
マルチモーダル推論
長尺動画処理

使用事例

動画内容分析
動画内容記述
入力動画に対して詳細な内容記述を生成
動画理解ベンチマークで純粋なセルフアテンションベースラインを上回る性能
インテリジェント監視
監視カメラ映像分析
監視映像中の重要なイベントを分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase