oneformer_ade20k_dinat_largeオープンソース画像分割モデル - 単一モデルでセマンティック、インスタンス、パノラマ分割を一括処理

ホーム

Oneformer Ade20k Dinat Large

shi-labsによって開発

初のマルチタスク汎用画像セグメンテーションフレームワーク、単一モデルで意味/インスタンス/パノプティックセグメンテーションタスクをサポート

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #マルチタスク画像セグメンテーション #汎用Transformerアーキテクチャ #タスク動的適応

ダウンロード数 2,275

リリース時間 : 11/15/2022

モデル概要

OneFormerはTransformerベースの汎用画像セグメンテーションモデルで、単一アーキテクチャとトレーニングプロセスにより意味セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションの3つのタスクを実現し、ADE20kデータセットでトレーニングされています。

モデル特徴

マルチタスク統合アーキテクチャ

単一モデルで意味セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションの3つのタスクを同時にサポート

動的タスク適応

ターストークンメカニズムにより、トレーニング時のタスクガイダンスと推論時のタスク動的切り替えを実現

専用モデルを凌駕

複数のセグメンテーションタスクにおいて、専用設計のシングルタスクモデルを上回る性能

モデル能力

意味セグメンテーション

インスタンスセグメンテーション

パノプティックセグメンテーション

シーン解析

物体認識

使用事例

コンピュータビジョン

シーン理解

屋内/屋外シーンのピクセルレベルでの意味解析

150クラスのシーン要素を識別可能（ADE20kデータセットベース）

物体インスタンスセグメンテーション

画像内の独立した物体インスタンスを識別・分割

複雑なシーンにおける重なり合う物体を処理可能

自動運転

道路シーン解析

道路、車両、歩行者などの要素をリアルタイムで分割

自動運転システムの環境認識モジュールに適用可能

🚀 OneFormer

OneFormerは、ADE20kデータセット（大型版、Dinatバックボーン）で学習されたモデルです。このモデルは、Jainらによる論文 OneFormer: One Transformer to Rule Universal Image Segmentation で紹介され、このリポジトリで最初に公開されました。

モデル画像

🚀 クイックスタート

OneFormerは、最初のマルチタスク汎用画像セグメンテーションフレームワークです。単一の汎用アーキテクチャ、単一のモデル、単一のデータセットで一度だけ学習することで、セマンティック、インスタンス、パノプティックセグメンテーションタスク全体で既存の専用モデルを上回る性能を発揮します。OneFormerは、タスクトークンを使用して、着目しているタスクにモデルを適応させ、単一のモデルでトレーニング時にはタスク指向、推論時にはタスク動的なアーキテクチャを実現します。

モデル画像

✨ 主な機能

このモデルは、セマンティック、インスタンス、パノプティックセグメンテーションに使用できます。他のデータセットで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import OneFormerProcessor, OneFormerForUniversalSegmentation
from PIL import Image
import requests
url = "https://huggingface.co/datasets/shi-labs/oneformer_demo/blob/main/ade20k.jpeg"
image = Image.open(requests.get(url, stream=True).raw)

# Loading a single model for all three tasks
processor = OneFormerProcessor.from_pretrained("shi-labs/oneformer_ade20k_dinat_large")
model = OneFormerForUniversalSegmentation.from_pretrained("shi-labs/oneformer_ade20k_dinat_large")

# Semantic Segmentation
semantic_inputs = processor(images=image, task_inputs=["semantic"], return_tensors="pt")
semantic_outputs = model(**semantic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_semantic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]

# Instance Segmentation
instance_inputs = processor(images=image, task_inputs=["instance"], return_tensors="pt")
instance_outputs = model(**instance_inputs)
# pass through image_processor for postprocessing
predicted_instance_map = processor.post_process_instance_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

# Panoptic Segmentation
panoptic_inputs = processor(images=image, task_inputs=["panoptic"], return_tensors="pt")
panoptic_outputs = model(**panoptic_inputs)
# pass through image_processor for postprocessing
predicted_semantic_map = processor.post_process_panoptic_segmentation(outputs, target_sizes=[image.size[::-1]])[0]["segmentation"]

より詳細な使用例については、ドキュメントを参照してください。

📚 ドキュメント

引用

@article{jain2022oneformer,
      title={{OneFormer: One Transformer to Rule Universal Image Segmentation}},
      author={Jitesh Jain and Jiachen Li and MangTik Chiu and Ali Hassani and Nikita Orlov and Humphrey Shi},
      journal={arXiv}, 
      year={2022}
    }