yolos-small-finetuned-masksオープンソースモデル - 無料でデプロイし、精度よくマスク検出を行う

ホーム

Yolos Small Finetuned Masks

nickmuchiによって開発

YOLOSアーキテクチャに基づく小型視覚Transformerモデルで、マスク検出タスク向けに微調整され、COCOおよびマスク検出データセットでトレーニング済み

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #マスク検出 #ViTアーキテクチャ #小物体検出

ダウンロード数 153

リリース時間 : 6/17/2022

モデル概要

このモデルは視覚Transformer(ViT)ベースの物体検出モデルで、COCOデータセットで事前学習後、マスク検出タスク専用に微調整されており、'マスク着用'、'マスク未着用'、'マスク不適切着用'の3状態を識別可能

モデル特徴

効率的な視覚Transformerアーキテクチャ

ViTベースのシンプルなアーキテクチャを採用し、DETR損失関数でトレーニングすることで、構造の簡潔さを保ちつつ良好な検出精度を達成

専用マスク検出最適化

853枚の注釈付き画像からなるマスクデータセットで200エポックの専用微調整を実施し、マスク関連検出能力を最適化

多様なシーン適応能力

評価結果では様々なサイズの物体(small/medium/large)において良好な検出性能を維持

モデル能力

画像物体検出

マスク着用状態識別

集団シーン分析

使用事例

公衆衛生監視

公共施設でのマスク着用監視

ショッピングモールや駅などの公共施設で集団のマスク着用状況をリアルタイム監視

53.2%の平均精度(AP@0.5)を達成可能

インテリジェントセキュリティ

入退場管理システム

入退場管理システムに統合し、人員のマスク着用状態を自動検出

🚀 YOLOS (小型) モデル

YOLOSモデルは、COCO 2017物体検出データセット（118kの注釈付き画像）でファインチューニングされました。このモデルは、Fangらによる論文 You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection で紹介され、このリポジトリで最初に公開されました。

このモデルは、Kaggleの顔マスクデータセットでさらにファインチューニングされています。このデータセットは、「マスクを着用している」、「マスクを着用していない」、「マスクの着用方法が正しくない」というカテゴリーの注釈付きの853枚の人物画像で構成されています。このモデルは、Google Colabを使用して単一のGPUで200エポック訓練されました。

✨ 主な機能

モデルの説明

YOLOSは、DETR損失を使用して訓練されたVision Transformer (ViT) です。シンプルな構造でありながら、ベースサイズのYOLOSモデルは、COCO 2017の検証データセットで42 AP（平均精度）を達成することができます（DETRやFaster R-CNNなどのより複雑なフレームワークと同等）。

想定される用途と制限

この生モデルは物体検出に使用することができます。利用可能なすべてのYOLOSモデルを探すには、モデルハブを参照してください。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、transformers ライブラリをインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests
url = 'https://drive.google.com/uc?id=1VwYLbGak5c-2P5qdvfWVOeg7DTDYPbro'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = YolosFeatureExtractor.from_pretrained('nickmuchi/yolos-small-finetuned-masks')
model = YolosForObjectDetection.from_pretrained('nickmuchi/yolos-small-finetuned-masks')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
# モデルはバウンディングボックスと対応する顔マスク検出クラスを予測します
logits = outputs.logits
bboxes = outputs.pred_boxes

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

📚 ドキュメント

訓練データ

YOLOSモデルは、ImageNet-1k で事前訓練され、COCO 2017物体検出データセットでファインチューニングされました。このデータセットは、それぞれ118k/5kの注釈付き画像で構成される訓練/検証データセットです。

訓練

このモデルは、顔マスクデータセットで200エポックファインチューニングされました。

評価結果

このモデルは、53.2 のAP（平均精度）を達成しています。

評価結果の蓄積中...

IoUメトリック: bbox

メトリック	メトリックパラメータ	位置	検出数
平均精度 (AP) @[ IoU=0.50:0.95	area= all	maxDets=100 ]	0.273
平均精度 (AP) @[ IoU=0.50	area= all	maxDets=100 ]	0.532
平均精度 (AP) @[ IoU=0.75	area= all	maxDets=100 ]	0.257
平均精度 (AP) @[ IoU=0.50:0.95	area= small	maxDets=100 ]	0.220
平均精度 (AP) @[ IoU=0.50:0.95	area= medium	maxDets=100 ]	0.341
平均精度 (AP) @[ IoU=0.50:0.95	area= large	maxDets=100 ]	0.545
平均再現率 (AR) @[ IoU=0.50:0.95	area= all	maxDets= 1 ]	0.154
平均再現率 (AR) @[ IoU=0.50:0.95	area= all	maxDets= 10 ]	0.361
平均再現率 (AR) @[ IoU=0.50:0.95	area= all	maxDets=100 ]	0.415
平均再現率 (AR) @[ IoU=0.50:0.95	area= small	maxDets=100 ]	0.349
平均再現率 (AR) @[ IoU=0.50:0.95	area= medium	maxDets=100 ]	0.469
平均再現率 (AR) @[ IoU=0.50:0.95	area= large	maxDets=100 ]	0.584