V

Video Mask2former Swin Small Youtubevis 2021 Instance

shivalikasinghによって開発
YouTubeVIS-2021データセットでトレーニングされたVideo Mask2Formerモデルで、ビデオインスタンスセグメンテーションタスクに使用され、Swin Transformerをバックボーンネットワークとして採用しています。
ダウンロード数 18
リリース時間 : 3/22/2023

モデル概要

このモデルは、Mask2Formerをビデオインスタンスセグメンテーションタスクに拡張したもので、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを統一的なパラダイムで処理し、一連のマスクとそれに対応するラベルを予測します。

モデル特徴

統一セグメンテーションパラダイム
インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーション問題として統一して処理
効率的なアテンションメカニズム
マルチスケール変形可能アテンションTransformerを従来のピクセルデコーダーの代わりに採用
マスクアテンションデコーダー
マスクアテンション付きTransformerデコーダーを使用して、計算量を増やすことなく性能を向上
効率的なトレーニング戦略
マスク全体ではなくサブサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

ビデオインスタンスセグメンテーション
マルチオブジェクトトラッキング
動的シーン分析

使用事例

ビデオ分析
自動運転シーン理解
道路上の動的物体を識別・追跡
移動する車両や歩行者を正確にセグメンテーション可能
ビデオ監視
監視ビデオ中の複数ターゲットの動きをリアルタイム分析
複数ターゲットの同時追跡とセグメンテーションをサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase