SegFormer - b0オープンソースセマンティックセグメンテーションモデル - 無料デプロイで都市景観画像の高精度セグメンテーションを支援

ホーム

Segformer B0 Finetuned Cityscapes 768 768

nvidiaによって開発

SegFormerはTransformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、CityScapesデータセットでファインチューニングされ、都市景観画像のセマンティックセグメンテーションタスクに適しています。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #都市景観セグメンテーション #Transformerアーキテクチャ #軽量MLPデコーダヘッド

ダウンロード数 566

リリース時間 : 3/2/2022

モデル概要

このモデルは階層型Transformerエンコーダと軽量全MLPデコーダヘッドの設計を採用し、768x768解像度の都市景観画像のセマンティックセグメンテーションを行い、CityScapesなどのベンチマークテストで優れた性能を発揮します。

モデル特徴

階層型Transformerアーキテクチャ

階層型Transformerエンコーダを採用し、多尺度の特徴情報を効果的に捕捉することができます。

軽量MLPデコーダヘッド

全MLPデコーダヘッドの設計を使用し、高性能を維持しながら計算の複雑さを低減します。

高解像度対応

768x768高解像度の画像に特化して最適化されており、都市景観分析に適しています。

モデル能力

画像セマンティックセグメンテーション

都市景観分析

道路シーン理解

使用事例

スマート交通

道路シーンセグメンテーション

自動運転システムで道路、車両、歩行者などの要素の識別とセグメンテーションに使用されます。

CityScapesデータセットで優れた性能を発揮します

都市計画

都市景観分析

都市の建物、道路、緑地などの要素の分布状況を分析するために使用されます。

🚀 SegFormer (b0サイズ) モデル：CityScapesでファインチューニング済み

このSegFormerモデルは、解像度768x768のCityScapesデータセットでファインチューニングされています。このモデルは、Xieらによる論文 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項：SegFormerを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このセクションでは、SegFormerモデルの概要と使用方法について説明します。

✨ 主な機能

SegFormerは、階層的なTransformerエンコーダと軽量な全MLPデコードヘッドで構成されており、ADE20KやCityscapesなどのセマンティックセグメンテーションベンチマークで優れた結果を達成します。階層的なTransformerは最初にImageNet-1kで事前学習され、その後デコードヘッドが追加され、下流のデータセットで一括してファインチューニングされます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import SegformerFeatureExtractor, SegformerForSemanticSegmentation
from PIL import Image
import requests

feature_extractor = SegformerFeatureExtractor.from_pretrained("nvidia/segformer-b0-finetuned-cityscapes-768-768")
model = SegformerForSemanticSegmentation.from_pretrained("nvidia/segformer-b0-finetuned-cityscapes-768-768")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits  # shape (batch_size, num_labels, height/4, width/4)

高度な使用法

このモデルを使用して、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法を示します。詳細なコード例については、ドキュメントを参照してください。

📚 ドキュメント

モデルの説明

SegFormerは、セマンティックセグメンテーションに特化したモデルで、Transformerを用いたシンプルで効率的な設計が特徴です。

想定される用途と制限

このモデルはセマンティックセグメンテーションに使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

🔧 技術詳細

SegFormerは、階層的なTransformerエンコーダと軽量な全MLPデコードヘッドで構成されています。階層的なTransformerは、画像の異なる解像度での特徴を捉えることができ、デコードヘッドはこれらの特徴をセマンティックセグメンテーションの結果に変換します。

📄 ライセンス

このモデルのライセンスについては、こちらを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2105-15203,
  author    = {Enze Xie and
               Wenhai Wang and
               Zhiding Yu and
               Anima Anandkumar and
               Jose M. Alvarez and
               Ping Luo},
  title     = {SegFormer: Simple and Efficient Design for Semantic Segmentation with
               Transformers},
  journal   = {CoRR},
  volume    = {abs/2105.15203},
  year      = {2021},
  url       = {https://arxiv.org/abs/2105.15203},
  eprinttype = {arXiv},
  eprint    = {2105.15203},
  timestamp = {Wed, 02 Jun 2021 11:46:42 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2105-15203.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}