🚀 RT-DETRv2
RT-DETRv2モデルは、リアルタイム物体検出TransformerのためのBag-of-Freebiesを用いた改良ベースラインとして提案されました。このモデルは、選択的なマルチスケール特徴抽出、より広い展開互換性のための離散サンプリング演算子、および動的データ拡張やスケール適応型ハイパーパラメータなどの改良されたトレーニング戦略を導入することで、RT-DETRを改良しています。これらの変更により、リアルタイム性能を維持しながら、柔軟性と実用性が向上しています。
🚀 クイックスタート
RT-DETRv2は、すべてのモデルサイズにおいて、先行モデルを上回る性能を安定的に発揮し、同じリアルタイム速度を維持します。
✨ 主な機能
概要
RT-DETRv2モデルは、Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liuによって RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer で提案されました。RT-DETRv2は、選択的なマルチスケール特徴抽出、より広い展開互換性のための離散サンプリング演算子、および動的データ拡張やスケール適応型ハイパーパラメータなどの改良されたトレーニング戦略を導入することで、RT-DETRを改良しています。これらの変更により、リアルタイム性能を維持しながら、柔軟性と実用性が向上しています。
このモデルは、@jadechoghari が @cyrilvallez と @qubvel-hf の支援を受けて貢献したものです。
性能
RT-DETRv2は、すべてのモデルサイズにおいて、先行モデルを上回る性能を安定的に発揮し、同じリアルタイム速度を維持します。

応用
RT-DETRv2は、自動運転、監視システム、ロボット工学、小売分析などの多様なアプリケーションにおけるリアルタイム物体検出に最適です。その強化された柔軟性と展開に適した設計により、エッジデバイスと大規模システムの両方に適しており、動的な実世界環境において高精度と高速を保証します。
💻 使用例
基本的な使用法
import torch
import requests
from PIL import Image
from transformers import RTDetrV2ForObjectDetection, RTDetrImageProcessor
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_v2_r50vd")
model = RTDetrV2ForObjectDetection.from_pretrained("PekingU/rtdetr_v2_r50vd")
inputs = image_processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.5)
for result in results:
for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
score, label = score.item(), label_id.item()
box = [round(i, 2) for i in box.tolist()]
print(f"{model.config.id2label[label]}: {score:.2f} {box}")
出力例
cat: 0.97 [341.14, 25.11, 639.98, 372.89]
cat: 0.96 [12.78, 56.35, 317.67, 471.34]
remote: 0.95 [39.96, 73.12, 175.65, 117.44]
sofa: 0.86 [-0.11, 2.97, 639.89, 473.62]
sofa: 0.82 [-0.12, 1.78, 639.87, 473.52]
remote: 0.79 [333.65, 76.38, 370.69, 187.48]
🔧 技術詳細
トレーニング
RT-DETRv2は、COCO (Lin et al. [2014]) train2017でトレーニングされ、COCO val2017データセットで検証されています。標準的なAPメトリクス(0.50 - 0.95のIoU閾値を0.05刻みで均一にサンプリングしたものの平均)と、実際のシナリオで一般的に使用されるAPval50を報告しています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。