oneformer_cityscapes_swin_largeオープンソース画像分割モデル

ホーム

Oneformer Cityscapes Swin Large

shi-labsによって開発

最初のマルチタスク汎用画像分割フレームワーク。単一モデルでセマンティック/インスタンス/パノラマ分割タスクをサポート

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #マルチタスク画像分割 #統一Transformerアーキテクチャ #都市景観分析

ダウンロード数 1,784

リリース時間 : 11/15/2022

モデル概要

Swinバックボーンネットワークに基づく統一画像分割モデル。タスクトークンにより動的なタスク切り替えを実現し、Cityscapesデータセットで訓練されています。

モデル特徴

マルチタスク統一アーキテクチャ

単一モデルでセマンティック分割、インスタンス分割、パノラマ分割タスクを同時にサポート

タスク動的切り替え

タスクトークンにより推論時のタスク切り替えを実現し、専用モデルを再訓練する必要がありません。

専用モデルを上回る

3つの分割タスクすべてで、従来の専用モデルを上回る性能を発揮

モデル能力

セマンティック分割

インスタンス分割

パノラマ分割

街頭風景画像解析

使用事例

自動運転

道路シーン理解

都市道路における車両、歩行者、交通標識などの要素を識別

ピクセルレベルのセマンティックラベルとインスタンス境界を提供

地理情報システム

航空写真画像分析

衛星/航空写真画像に対して建物、道路などの要素を分割

定量化可能な地理情報データを生成

🚀 OneFormer

OneFormerは、Cityscapesデータセット（大型バージョン、Swinバックボーン）で学習されたモデルです。このモデルは、Jainらによる論文 OneFormer: One Transformer to Rule Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

model image

🚀 クイックスタート

OneFormerは、最初のマルチタスク汎用画像セグメンテーションフレームワークです。単一の汎用アーキテクチャ、単一のモデル、単一のデータセットで一度だけ学習することで、セマンティック、インスタンス、パノプティックセグメンテーションタスク全体で既存の専用モデルを上回る性能を発揮します。OneFormerは、タスクトークンを使用して、着目するタスクにモデルを適応させ、アーキテクチャを学習時にタスクガイド型、推論時にタスクダイナミック型にします。

model image

✨ 主な機能

このモデルは、セマンティック、インスタンス、パノプティックセグメンテーションに使用できます。他のデータセットで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import OneFormerProcessor, OneFormerForUniversalSegmentation
from PIL import Image
import requests
url = "https://huggingface.co/datasets/shi-labs/oneformer_demo/blob/main/cityscapes.png"
image = Image.open(requests.get(url, stream=True).raw)

# Loading a single model for all three tasks
processor = OneFormerProcessor.from_pretrained("shi-labs/oneformer_cityscapes_swin_large")
model = OneFormerForUniversalSegmentation.from_pretrained("shi-labs/oneformer_cityscapes_swin_large")

# Semantic Segmentation
semantic_inputs = processor(images=image, task_inputs=["semantic"], return_tensors="pt")
semantic_outputs = model(**semantic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

# Instance Segmentation
instance_inputs = processor(images=image, task_inputs=["instance"], return_tensors="pt")
instance_outputs = model(**instance_inputs)
# pass through image_processor for postprocessing
predicted_instance_map = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

# Panoptic Segmentation
panoptic_inputs = processor(images=image, task_inputs=["panoptic"], return_tensors="pt")
panoptic_outputs = model(**panoptic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

より詳細な使用例については、ドキュメントを参照してください。

📚 ドキュメント

引用

@article{jain2022oneformer,
      title={{OneFormer: One Transformer to Rule Universal Image Segmentation}},
      author={Jitesh Jain and Jiachen Li and MangTik Chiu and Ali Hassani and Nikita Orlov and Humphrey Shi},
      journal={arXiv}, 
      year={2022}
    }