conditional-detr-resnet-50オープンソース目標検出モデル - 訓練の収束を高速化し、目標を迅速にロック

ホーム

Conditional Detr Resnet 50

microsoftによって開発

条件付きDETRは改良された物体検出モデルで、条件付きクロスアテンション機構によりトレーニング収束速度を大幅に向上

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #高速収束DETR #条件付き空間クエリ #COCO物体検出

ダウンロード数 6,796

リリース時間 : 9/9/2022

モデル概要

このモデルはTransformerアーキテクチャに基づく物体検出モデルで、COCOデータセットでトレーニングされ、画像中の物体を高速かつ正確に検出

モデル特徴

高速トレーニング収束

標準DETRと比較してトレーニング速度が6.7-10倍向上

条件付きクロスアテンション機構

条件付き空間クエリを学習することで、各アテンションヘッドが異なる領域に注目し、コンテンツ埋め込みへの依存を低減

エンドツーエンドトレーニング

複雑な後処理なしで直接検出結果を出力

モデル能力

画像物体検出

複数物体認識

バウンディングボックス予測

使用事例

コンピュータビジョンアプリケーション

シーン理解

画像中の様々な物体とその位置を識別

動物、乗り物などの一般的な物体を正確に検出可能

インテリジェント監視

監視映像中の物体をリアルタイム検出

🚀 Conditional DETRモデル（ResNet-50バックボーン）

COCO 2017の物体検出データセットでエンドツーエンド学習されたConditional DEtection TRansformer (DETR) モデルです。このモデルは、物体検出タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このConditional DETRモデルは、COCO 2017の物体検出データセット（118k枚の注釈付き画像）を用いてエンドツーエンドで学習されました。このモデルは、Mengらによる論文 Conditional DETR for Fast Training Convergence で紹介され、このリポジトリで最初に公開されました。

✨ 主な機能

モデルの概要

最近開発されたDETRアプローチは、トランスフォーマーのエンコーダとデコーダのアーキテクチャを物体検出に適用し、有望な性能を達成しています。この論文では、トレーニングの収束が遅いという重要な問題を解決し、高速なDETRトレーニングのための条件付きクロスアテンションメカニズムを提案しています。我々のアプローチは、DETRのクロスアテンションが4つの端点の位置特定とボックスの予測に高度に依存していることに着目しています。これにより、高品質なコンテンツ埋め込みが必要となり、トレーニングの難易度が増加します。我々のアプローチであるConditional DETRは、デコーダのマルチヘッドクロスアテンションのために、デコーダ埋め込みから条件付き空間クエリを学習します。これにより、各クロスアテンションヘッドは、特定の領域（例えば、物体の端点や物体ボックス内の領域）を含むバンドに注目することができます。これにより、物体分類とボックス回帰のための特定領域の位置特定の空間範囲が狭まり、コンテンツ埋め込みへの依存が緩和され、トレーニングが容易になります。実験結果によると、Conditional DETRは、バックボーンがR50とR101の場合、6.7倍、より強力なバックボーンであるDC5 - R50とDC5 - R101の場合、10倍速く収束します。

モデル画像

想定される用途と制限

この生モデルは物体検出に使用できます。すべての利用可能なConditional DETRモデルを探すには、モデルハブを参照してください。

📦 インストール

本READMEにはインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, ConditionalDetrForObjectDetection
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50")
model = ConditionalDetrForObjectDetection.from_pretrained("microsoft/conditional-detr-resnet-50")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# convert outputs (bounding boxes and class logits) to COCO API
# let's only keep detections with score > 0.7
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.7)[0]

for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
    box = [round(i, 2) for i in box.tolist()]
    print(
            f"Detected {model.config.id2label[label.item()]} with confidence "
            f"{round(score.item(), 3)} at location {box}"
    )

このコードを実行すると、以下のような出力が得られます。

Detected remote with confidence 0.833 at location [38.31, 72.1, 177.63, 118.45]
Detected cat with confidence 0.831 at location [9.2, 51.38, 321.13, 469.0]
Detected cat with confidence 0.804 at location [340.3, 16.85, 642.93, 370.95]

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

📚 ドキュメント

トレーニングデータ

Conditional DETRモデルは、COCO 2017物体検出データセットでトレーニングされました。このデータセットは、それぞれ118k/5k枚の注釈付き画像を含むトレーニング/検証データセットです。

BibTeXエントリと引用情報

@inproceedings{MengCFZLYS021,
  author    = {Depu Meng and
               Xiaokang Chen and
               Zejia Fan and
               Gang Zeng and
               Houqiang Li and
               Yuhui Yuan and
               Lei Sun and
               Jingdong Wang},
  title     = {Conditional {DETR} for Fast Training Convergence},
  booktitle = {2021 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
               2021, Montreal, QC, Canada, October 10-17, 2021},
}