detr-resnet-101-dc5オープンソースの物体検出モデル - COCOデータに基づく高精度な物体識別

ホーム

Detr Resnet 101 Dc5

facebookによって開発

DETRはTransformerを使用したエンドツーエンド物体検出モデルで、ResNet-101をバックボーンとしてCOCOデータセットでトレーニングされています。

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #エンドツーエンド物体検出 #Transformerアーキテクチャ #COCOデータセット

ダウンロード数 9,379

リリース時間 : 3/2/2022

モデル概要

このモデルはエンコーダ-デコーダTransformer構造により物体検出を実現し、従来手法のアンカーボックスや非最大抑制ステップが不要です。

モデル特徴

エンドツーエンド物体検出

従来手法のアンカーボックス設計や非最大抑制ステップが不要で、検出プロセスを簡素化

Transformerアーキテクチャ

エンコーダ-デコーダTransformer構造を採用して視覚タスクを処理

ハンガリアン損失

ハンガリアンアルゴリズムを使用して予測とアノテーションの最適マッチングを実現

モデル能力

画像中の物体検出

多クラス認識

バウンディングボックス予測

使用事例

コンピュータビジョンアプリケーション

シーン理解

複雑なシーン中の複数物体を識別

COCO検証セットで44.9 APを達成

インテリジェント監視

監視映像中の人物や物体を検出

🚀 DETR (エンドツーエンド物体検出) モデル（ResNet-101バックボーン、拡張C5ステージ）

このモデルは、COCO 2017物体検出データセット（118,000枚の注釈付き画像）でエンドツーエンドで学習されたDETR（DEtection TRansformer）モデルです。このモデルは、Carionらによる論文 End-to-End Object Detection with Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項: DETRを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは物体検出に使用できます。利用可能なすべてのDETRモデルを探すには、モデルハブを参照してください。

✨ 主な機能

DETRモデルは、畳み込みバックボーンを持つエンコーダ・デコーダトランスフォーマーです。物体検出を行うために、デコーダの出力の上に2つのヘッドが追加されています。1つはクラスラベル用の線形層、もう1つはバウンディングボックス用のMLP（多層パーセプトロン）です。このモデルは、画像内の物体を検出するためにいわゆる物体クエリを使用します。各物体クエリは、画像内の特定の物体を探します。COCOの場合、物体クエリの数は100に設定されています。

モデルは「二部マッチング損失」を使用して学習されます。つまり、N = 100の各物体クエリの予測クラスとバウンディングボックスを、同じ長さNにパディングされた正解注釈と比較します（画像に4つの物体しか含まれていない場合、96の注釈はクラスとして「物体なし」、バウンディングボックスとして「バウンディングボックスなし」になります）。ハンガリアンマッチングアルゴリズムを使用して、N個のクエリとN個の注釈の間に最適な1対1のマッピングを作成します。次に、標準的な交差エントロピー（クラス用）とL1損失と一般化IoU損失の線形結合（バウンディングボックス用）を使用して、モデルのパラメータを最適化します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import DetrFeatureExtractor, DetrForObjectDetection
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = DetrFeatureExtractor.from_pretrained('facebook/detr-resnet-101-dc5')
model = DetrForObjectDetection.from_pretrained('facebook/detr-resnet-101-dc5')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)

# model predicts bounding boxes and corresponding COCO classes
logits = outputs.logits
bboxes = outputs.pred_boxes

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

📚 ドキュメント

学習データ

DETRモデルは、COCO 2017物体検出データセットで学習されました。このデータセットは、それぞれ学習用と検証用に118,000枚と5,000枚の注釈付き画像で構成されています。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、ここで確認できます。

画像は、最短辺が少なくとも800ピクセル、最長辺が最大1333ピクセルになるようにリサイズ/リスケールされ、RGBチャンネル全体でImageNetの平均 (0.485, 0.456, 0.406) と標準偏差 (0.229, 0.224, 0.225) で正規化されます。

学習

このモデルは、16台のV100 GPUで300エポック学習されました。これには3日かかり、GPUごとに4枚の画像が使用されます（したがって、総バッチサイズは64です）。

評価結果

このモデルは、COCO 2017の検証データセットで 44.9 のAP（平均精度）を達成しています。評価結果の詳細については、原著論文の表1を参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2005-12872,
  author    = {Nicolas Carion and
               Francisco Massa and
               Gabriel Synnaeve and
               Nicolas Usunier and
               Alexander Kirillov and
               Sergey Zagoruyko},
  title     = {End-to-End Object Detection with Transformers},
  journal   = {CoRR},
  volume    = {abs/2005.12872},
  year      = {2020},
  url       = {https://arxiv.org/abs/2005.12872},
  archivePrefix = {arXiv},
  eprint    = {2005.12872},
  timestamp = {Thu, 28 May 2020 17:38:09 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2005-12872.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}