M

Mask2former Swin Base Ade Semantic

facebookによって開発
ADE20kデータセットでトレーニングされた汎用画像セグメンテーションモデル。統一フレームワークでインスタンス/セマンティック/パノプティックセグメンテーションタスクを処理
ダウンロード数 2,811
リリース時間 : 1/5/2023

モデル概要

Mask2FormerはTransformerベースの汎用画像セグメンテーションモデルで、一連のマスクと対応するラベルを予測することで、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションを統一して処理します。前世代モデルのMaskFormerと比べて、性能と効率の両面で大幅な向上を実現しています。

モデル特徴

統一セグメンテーションフレームワーク
インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションをインスタンスセグメンテーションタスクとして統一処理
効率的なアテンションメカニズム
従来のピクセルデコーダーの代わりにマルチスケール変形可能アテンションTransformerを採用
マスクアテンションデコーダー
マスクアテンション付きTransformerデコーダーを導入し、計算量を増やさずに性能向上
効率的なトレーニング戦略
マスク全体ではなくサンプリングポイントで損失を計算することで、トレーニング効率を大幅に向上

モデル能力

インスタンスセグメンテーション
セマンティックセグメンテーション
パノプティックセグメンテーション
マルチスケール画像解析

使用事例

コンピュータビジョン
シーン理解
複雑なシーン内の物体を正確にセグメンテーションして分類
ADE20kデータセットの150クラスのセマンティックラベルを識別可能
自動運転
道路シーンのリアルタイムセマンティックセグメンテーション
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase