🚀 Conditional DETRモデル(ResNet-50バックボーン)
COCO 2017の物体検出データセットでエンドツーエンド学習されたConditional DEtection TRansformer (DETR) モデルです。このモデルは、物体検出タスクにおいて高い性能を発揮します。
🚀 クイックスタート
このConditional DETRモデルは、COCO 2017の物体検出データセット(118k枚の注釈付き画像)を用いてエンドツーエンドで学習されました。このモデルは、Mengらによる論文 Conditional DETR for Fast Training Convergence で紹介され、このリポジトリ で最初に公開されました。
✨ 主な機能
モデルの概要
最近開発されたDETRアプローチは、トランスフォーマーのエンコーダとデコーダのアーキテクチャを物体検出に適用し、有望な性能を達成しています。この論文では、トレーニングの収束が遅いという重要な問題を解決し、高速なDETRトレーニングのための条件付きクロスアテンションメカニズムを提案しています。我々のアプローチは、DETRのクロスアテンションが4つの端点の位置特定とボックスの予測に高度に依存していることに着目しています。これにより、高品質なコンテンツ埋め込みが必要となり、トレーニングの難易度が増加します。我々のアプローチであるConditional DETRは、デコーダのマルチヘッドクロスアテンションのために、デコーダ埋め込みから条件付き空間クエリを学習します。これにより、各クロスアテンションヘッドは、特定の領域(例えば、物体の端点や物体ボックス内の領域)を含むバンドに注目することができます。これにより、物体分類とボックス回帰のための特定領域の位置特定の空間範囲が狭まり、コンテンツ埋め込みへの依存が緩和され、トレーニングが容易になります。実験結果によると、Conditional DETRは、バックボーンがR50とR101の場合、6.7倍、より強力なバックボーンであるDC5 - R50とDC5 - R101の場合、10倍速く収束します。

想定される用途と制限
この生モデルは物体検出に使用できます。すべての利用可能なConditional DETRモデルを探すには、モデルハブ を参照してください。
📦 インストール
本READMEにはインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import AutoImageProcessor, ConditionalDetrForObjectDetection
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/conditional-detr-resnet-50")
model = ConditionalDetrForObjectDetection.from_pretrained("microsoft/conditional-detr-resnet-50")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
target_sizes = torch.tensor([image.size[::-1]])
results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.7)[0]
for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
box = [round(i, 2) for i in box.tolist()]
print(
f"Detected {model.config.id2label[label.item()]} with confidence "
f"{round(score.item(), 3)} at location {box}"
)
このコードを実行すると、以下のような出力が得られます。
Detected remote with confidence 0.833 at location [38.31, 72.1, 177.63, 118.45]
Detected cat with confidence 0.831 at location [9.2, 51.38, 321.13, 469.0]
Detected cat with confidence 0.804 at location [340.3, 16.85, 642.93, 370.95]
現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。
📚 ドキュメント
トレーニングデータ
Conditional DETRモデルは、COCO 2017物体検出 データセットでトレーニングされました。このデータセットは、それぞれ118k/5k枚の注釈付き画像を含むトレーニング/検証データセットです。
BibTeXエントリと引用情報
@inproceedings{MengCFZLYS021,
author = {Depu Meng and
Xiaokang Chen and
Zejia Fan and
Gang Zeng and
Houqiang Li and
Yuhui Yuan and
Lei Sun and
Jingdong Wang},
title = {Conditional {DETR} for Fast Training Convergence},
booktitle = {2021 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
2021, Montreal, QC, Canada, October 10-17, 2021},
}
🔧 技術詳細
本READMEには技術的な詳細に関する具体的な内容が十分に記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。