オープンソースOneFormerモデル - 単一モデルでセマンティック、インスタンス、パノラマ画像分割タスクをサポート

ホーム

Oneformer Ade20k Swin Large

shi-labsによって開発

OneFormerは初のマルチタスク汎用画像分割フレームワークで、単一のモデルでセマンティック分割、インスタンス分割、パノラマ分割のタスクをサポートします。

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #マルチタスク分割 #統一Transformerアーキテクチャ #ADE20kデータセット

ダウンロード数 141.57k

リリース時間 : 11/15/2022

モデル概要

Swinバックボーンネットワークに基づく汎用画像分割モデルで、ADE20kデータセットで学習され、タスクトークンにより分割タスクのタイプを動的に切り替えることができます。

モデル特徴

マルチタスク統一アーキテクチャ

単一のモデルでセマンティック分割、インスタンス分割、パノラマ分割の3つのタスクを同時にサポートします。

タスク条件付き処理

タスクトークンにより学習時のタスク誘導と推論時の動的なタスク切り替えを実現します。

専用モデルを上回る性能

複数の分割タスクで、専用に設計された単一タスクモデルを上回る性能を発揮します。

モデル能力

セマンティック分割

インスタンス分割

パノラマ分割

汎用画像分析

使用事例

シーン理解

室内シーン解析

住宅画像内の壁、家具、電化製品などの要素を識別します。

サンプル画像では完全なシーン分割の結果が示されています。

室外シーン分析

街道の風景内の建物、車両、歩行者などのオブジェクトを解析します。

オブジェクト識別

交通手段識別

画像内の飛行機、自動車などの交通手段を正確に分割します。

サンプル画像では飛行機のインスタンス分割結果が示されています。

人物分割

複雑な背景から人物の輪郭を分離します。

サンプル画像では人物分割の結果が示されています。

🚀 OneFormer

OneFormerは、ADE20kデータセットで学習されたモデル（大規模版、Swinバックボーン）です。このモデルは、Jainらによる論文 OneFormer: One Transformer to Rule Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

モデル画像

🚀 クイックスタート

このモデルは、ADE20kデータセットを使用して学習されたOneFormerモデルで、画像セグメンテーションタスクに使用できます。以下に、このモデルの概要と使用方法を説明します。

✨ 主な機能

モデル概要

OneFormerは、最初のマルチタスク汎用画像セグメンテーションフレームワークです。単一の汎用アーキテクチャ、単一のモデル、単一のデータセットで一度だけ学習することで、セマンティック、インスタンス、パノプティックセグメンテーションタスク全体で既存の専用モデルを上回る性能を発揮します。OneFormerは、タスクトークンを使用して、着目するタスクにモデルを条件付けることで、アーキテクチャを学習時にタスクガイド型、推論時にタスクダイナミック型にし、すべてを単一のモデルで実現します。

モデル画像

想定用途と制限事項

この特定のチェックポイントは、セマンティック、インスタンス、パノプティックセグメンテーションに使用できます。他のデータセットで微調整されたバージョンを探すには、モデルハブを参照してください。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import OneFormerProcessor, OneFormerForUniversalSegmentation
from PIL import Image
import requests
url = "https://huggingface.co/datasets/shi-labs/oneformer_demo/blob/main/ade20k.jpeg"
image = Image.open(requests.get(url, stream=True).raw)

# Loading a single model for all three tasks
processor = OneFormerProcessor.from_pretrained("shi-labs/oneformer_ade20k_swin_large")
model = OneFormerForUniversalSegmentation.from_pretrained("shi-labs/oneformer_ade20k_swin_large")

# Semantic Segmentation
semantic_inputs = processor(images=image, task_inputs=["semantic"], return_tensors="pt")
semantic_outputs = model(**semantic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

# Instance Segmentation
instance_inputs = processor(images=image, task_inputs=["instance"], return_tensors="pt")
instance_outputs = model(**instance_inputs)
# pass through image_processor for postprocessing
predicted_instance_map = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

# Panoptic Segmentation
panoptic_inputs = processor(images=image, task_inputs=["panoptic"], return_tensors="pt")
panoptic_outputs = model(**panoptic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

詳細な使用例については、ドキュメントを参照してください。

📚 ドキュメント

このモデルに関する詳細なドキュメントは、こちらを参照してください。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

@article{jain2022oneformer,
      title={{OneFormer: One Transformer to Rule Universal Image Segmentation}},
      author={Jitesh Jain and Jiachen Li and MangTik Chiu and Ali Hassani and Nikita Orlov and Humphrey Shi},
      journal={arXiv}, 
      year={2022}
    }