M

Mit B2

nvidiaによって開発
SegFormerはTransformerベースのセマンティックセグメンテーションモデルで、エンコーダーはImagenet-1kでファインチューニングされています。
ダウンロード数 13.86k
リリース時間 : 3/2/2022

モデル概要

SegFormerは階層型Transformerエンコーダーと軽量な全MLPデコーダーで構成され、セマンティックセグメンテーションタスクに特化しています。このバージョンには事前学習済みの階層型Transformerのみが含まれており、ファインチューニング目的で使用できます。

モデル特徴

階層型Transformerアーキテクチャ
階層設計のTransformerエンコーダーを採用し、異なるスケールの視覚特徴を効果的に処理可能
軽量MLPデコーダー
軽量な全MLPデコーダーと組み合わせることで、効率を維持しながら優れたセマンティックセグメンテーション性能を実現
ImageNet事前学習
エンコーダーはImageNet-1kデータセットで事前学習されており、良好な特徴抽出基盤を提供

モデル能力

画像セマンティックセグメンテーション
視覚特徴抽出
下流タスクのファインチューニング

使用事例

コンピュータビジョン
シーン理解
ADE20Kなどのシーンデータセットに対するセマンティックセグメンテーション
ADE20KやCityscapesなどのベンチマークテストで優れた性能を発揮
画像分析
画像中の物体や領域情報の抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase