oneformer_cityscapes_dinat_largeオープンソース画像分割モデル - 複数タイプの都市画像分割タスクをサポート

ホーム

Oneformer Cityscapes Dinat Large

shi-labsによって開発

Cityscapesデータセットでトレーニングされたマルチタスク汎用画像セグメンテーションモデルで、意味セグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションタスクをサポート

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #マルチタスクセグメンテーション #統一Transformer #都市景観分析

ダウンロード数 70.19k

リリース時間 : 11/15/2022

モデル概要

OneFormerは、単一のアーキテクチャとモデルで3つのセグメンテーションタスクを実現する初めての統一画像セグメンテーションTransformerモデルで、タスクトークンメカニズムによるタスク条件付け処理を採用

モデル特徴

マルチタスク統一アーキテクチャ

単一モデルで意味セグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの3つのタスクを同時にサポート

タスクトークンメカニズム

タスクトークンによるトレーニング時のタスクガイダンスと推論時のタスク動的調整を実現

専用モデルを超越

3つのセグメンテーションタスクすべてで専用モデルの性能を上回る

モデル能力

意味セグメンテーション

インスタンスセグメンテーション

パノラマセグメンテーション

都市景観分析

使用事例

インテリジェント交通

道路シーン理解

都市道路シーンをピクセルレベルで意味セグメンテーション

道路、車両、歩行者などの要素を正確に識別可能

都市計画

都市景観分析

都市建築物とインフラをインスタンスセグメンテーション

各種都市要素の数量と分布を統計可能

🚀 OneFormer

OneFormerは、Cityscapesデータセット（大型版、Dinatバックボーン）で学習されたモデルです。このモデルは、Jainらによる論文 OneFormer: One Transformer to Rule Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

モデル画像

🚀 クイックスタート

このモデルは、Cityscapesデータセットで学習されたOneFormerモデルで、画像のセマンティック、インスタンス、パノプティックセグメンテーションに使用できます。

✨ 主な機能

モデルの説明

OneFormerは、最初のマルチタスク汎用画像セグメンテーションフレームワークです。単一の汎用アーキテクチャ、単一のモデル、単一のデータセットで一度だけ学習することで、セマンティック、インスタンス、パノプティックセグメンテーションタスクで既存の専用モデルを上回る性能を発揮します。OneFormerは、タスクトークンを使用して、着目するタスクにモデルを条件付け、単一のモデルでトレーニング時にはタスクガイド型、推論時にはタスクダイナミック型のアーキテクチャを実現します。

モデル画像

想定される用途と制限

この特定のチェックポイントは、セマンティック、インスタンス、パノプティックセグメンテーションに使用できます。他のデータセットで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import OneFormerProcessor, OneFormerForUniversalSegmentation
from PIL import Image
import requests
url = "https://huggingface.co/datasets/shi-labs/oneformer_demo/blob/main/cityscapes.png"
image = Image.open(requests.get(url, stream=True).raw)

# Loading a single model for all three tasks
processor = OneFormerProcessor.from_pretrained("shi-labs/oneformer_cityscapes_dinat_large")
model = OneFormerForUniversalSegmentation.from_pretrained("shi-labs/oneformer_cityscapes_dinat_large")

# Semantic Segmentation
semantic_inputs = processor(images=image, task_inputs=["semantic"], return_tensors="pt")
semantic_outputs = model(**semantic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

# Instance Segmentation
instance_inputs = processor(images=image, task_inputs=["instance"], return_tensors="pt")
instance_outputs = model(**instance_inputs)
# pass through image_processor for postprocessing
predicted_instance_map = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

# Panoptic Segmentation
panoptic_inputs = processor(images=image, task_inputs=["panoptic"], return_tensors="pt")
panoptic_outputs = model(**panoptic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

より詳細な使用例については、ドキュメントを参照してください。

📚 ドキュメント

引用

@article{jain2022oneformer,
      title={{OneFormer: One Transformer to Rule Universal Image Segmentation}},
      author={Jitesh Jain and Jiachen Li and MangTik Chiu and Ali Hassani and Nikita Orlov and Humphrey Shi},
      journal={arXiv}, 
      year={2022}
    }