M

Mask2former Swin Large Mapillary Vistas Panoptic

facebookによって開発
Swinバックボーンネットワークに基づくMask2Formerの大規模バージョンで、パノプティックセグメンテーションタスク向けに設計され、Mapillary Vistasデータセットでトレーニング
ダウンロード数 2,750
リリース時間 : 1/5/2023

モデル概要

Mask2Formerは統一された画像セグメンテーションフレームワークで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションタスクを処理します。前世代モデルのMaskFormerと比較して、性能と効率の両方で大幅な向上が見られます。

モデル特徴

統一セグメンテーションフレームワーク
インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一して処理
マルチスケール変形可能アテンション
マルチスケール変形可能アテンショントランスフォーマーを使用してピクセルデコーダーをアップグレードし、性能を向上
マスクアテンションメカニズム
マスクアテンションメカニズムを導入したトランスフォーマーデコーダーで、計算量を増やすことなく性能を向上
効率的なトレーニング
サブサンプリングポイントを使用して損失値を計算することで、トレーニング効率を大幅に向上

モデル能力

画像セグメンテーション
パノプティックセグメンテーション
インスタンスセグメンテーション
セマンティックセグメンテーション

使用事例

コンピュータビジョン
ストリートビュー理解
Mapillary Vistasなどのストリートビューデータセットのパノプティックセグメンテーションに使用
ストリートビュー内のさまざまなオブジェクトを正確に識別およびセグメント化可能
オブジェクト認識とセグメンテーション
画像内のオブジェクトを識別し、正確なマスクを生成
例示されている猫や城の認識など
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase