🚀 YOLOS (小型) モデル
YOLOSモデルは、COCO 2017物体検出データセット(118kの注釈付き画像)でファインチューニングされました。このモデルは、Fangらによる論文 You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection で紹介され、このリポジトリ で最初に公開されました。
このモデルは、Kaggleの 顔マスクデータセット でさらにファインチューニングされています。このデータセットは、「マスクを着用している」、「マスクを着用していない」、「マスクの着用方法が正しくない」というカテゴリーの注釈付きの853枚の人物画像で構成されています。このモデルは、Google Colabを使用して単一のGPUで200エポック訓練されました。
✨ 主な機能
モデルの説明
YOLOSは、DETR損失を使用して訓練されたVision Transformer (ViT) です。シンプルな構造でありながら、ベースサイズのYOLOSモデルは、COCO 2017の検証データセットで42 AP(平均精度)を達成することができます(DETRやFaster R-CNNなどのより複雑なフレームワークと同等)。
想定される用途と制限
この生モデルは物体検出に使用することができます。利用可能なすべてのYOLOSモデルを探すには、モデルハブ を参照してください。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformers
ライブラリをインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests
url = 'https://drive.google.com/uc?id=1VwYLbGak5c-2P5qdvfWVOeg7DTDYPbro'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = YolosFeatureExtractor.from_pretrained('nickmuchi/yolos-small-finetuned-masks')
model = YolosForObjectDetection.from_pretrained('nickmuchi/yolos-small-finetuned-masks')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
bboxes = outputs.pred_boxes
現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。
📚 ドキュメント
訓練データ
YOLOSモデルは、ImageNet-1k で事前訓練され、COCO 2017物体検出 データセットでファインチューニングされました。このデータセットは、それぞれ118k/5kの注釈付き画像で構成される訓練/検証データセットです。
訓練
このモデルは、顔マスクデータセット で200エポックファインチューニングされました。
評価結果
このモデルは、53.2 のAP(平均精度)を達成しています。
評価結果の蓄積中...
IoUメトリック: bbox
メトリック |
メトリックパラメータ |
位置 |
検出数 |
値 |
平均精度 (AP) @[ IoU=0.50:0.95 |
area= all |
maxDets=100 ] |
0.273 |
|
平均精度 (AP) @[ IoU=0.50 |
area= all |
maxDets=100 ] |
0.532 |
|
平均精度 (AP) @[ IoU=0.75 |
area= all |
maxDets=100 ] |
0.257 |
|
平均精度 (AP) @[ IoU=0.50:0.95 |
area= small |
maxDets=100 ] |
0.220 |
|
平均精度 (AP) @[ IoU=0.50:0.95 |
area= medium |
maxDets=100 ] |
0.341 |
|
平均精度 (AP) @[ IoU=0.50:0.95 |
area= large |
maxDets=100 ] |
0.545 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= all |
maxDets= 1 ] |
0.154 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= all |
maxDets= 10 ] |
0.361 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= all |
maxDets=100 ] |
0.415 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= small |
maxDets=100 ] |
0.349 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= medium |
maxDets=100 ] |
0.469 |
|
平均再現率 (AR) @[ IoU=0.50:0.95 |
area= large |
maxDets=100 ] |
0.584 |
|
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。