Q

Qwen2.5 Vl 7b Cam Motion Preview

chancharikmによって開発
Qwen2.5-VL-7B-Instructをファインチューニングしたカメラ運動分析モデルで、ビデオ内のカメラ運動分類とビデオ-テキスト検索タスクに特化
ダウンロード数 1,456
リリース時間 : 4/28/2025

モデル概要

このモデルはカメラ運動分析タスク向けに最適化されたマルチモーダルモデルで、ビデオ内のカメラ運動タイプを識別し、ビデオとテキスト記述のマッチング度を評価可能

モデル特徴

カメラ運動識別
ズーム、パン、チルトなどビデオ内の各種カメラ運動を正確に識別可能
ビデオ-テキストマッチング評価
ビデオ内容とテキスト記述のマッチング度スコアを計算し、検索タスクに利用可能
マルチモーダル理解
ビデオとテキスト入力を同時処理し、クロスモーダル理解を実現
高性能ベンチマーク
CameraBenchにおいてカメラ運動分類と検索タスクで現在のSOTA性能を達成

モデル能力

ビデオ内容分析
カメラ運動分類
ビデオ-テキストマッチングスコアリング
マルチモーダル推論
自然言語生成

使用事例

ビデオ分析
カメラ運動分類
ビデオクリップ内のカメラ運動タイプを自動識別
ズーム、パン、チルトなどの一般的なカメラ運動を正確分類
ビデオ検索
テキスト記述に基づきマッチングするビデオクリップを検索
ビデオとテキスト記述のマッチング度スコアを提供
映像制作
ショット分析
映像作品におけるショットの使用を分析
監督のショット言語理解を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase