🚀 YOLOS(小尺寸)模型在Matterport氣球數據集上的微調版本
YOLOS是一個使用DETR損失函數訓練的視覺Transformer(ViT)模型。儘管其結構簡單,但基礎尺寸的YOLOS模型在COCO 2017驗證集上能夠達到42的平均精度均值(AP),與DETR以及諸如Faster R - CNN等更復雜的框架表現相當。該YOLOS模型在COCO 2017目標檢測數據集(11.8萬張帶註釋的圖像)上進行了微調。它由Fang等人在論文You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection中提出,並首次在此倉庫中發佈。
✨ 主要特性
- YOLOS基於視覺Transformer架構,使用DETR損失進行訓練。
- 基礎尺寸模型在COCO 2017驗證集上有良好的AP表現。
- 模型經過多階段訓練和微調,包括在ImageNet - 1k、COCO 2017目標檢測數據集和Matterport氣球檢測數據集上。
📚 詳細文檔
模型描述
該模型使用“二分匹配損失”進行訓練:將N = 100個目標查詢中的每個查詢預測的類別和邊界框與真實標註進行比較,真實標註會填充到相同的長度N(因此,如果一張圖像僅包含4個目標,那麼96個標註的類別將為“無目標”,邊界框為“無邊界框”)。使用匈牙利匹配算法在N個查詢和N個標註之間創建最優的一對一映射。接下來,使用標準的交叉熵(用於類別)和L1損失與廣義交併比損失的線性組合(用於邊界框)來優化模型的參數。
目前,特徵提取器和模型均支持PyTorch。
訓練數據
此模型在ImageNet - 1k上進行了預訓練,並在COCO 2017目標檢測數據集上進行了微調,該數據集分別包含11.8萬張和5000張用於訓練和驗證的帶註釋圖像。它還在Matterport氣球檢測數據集上進一步微調,該數據集包含74張帶註釋的圖像。
訓練過程
該模型在ImageNet - 1k上預訓練了200個epoch,在COCO上微調了150個epoch,並在Matterport氣球數據集上進一步微調了96個epoch。
你可以在[這裡](https://github.com/ZohebAbai/Deep - Learning - Projects/blob/master/10_PT_Object_Detection_using_Transformers.ipynb)查看其詳細的筆記本。
評估結果
該模型在Matterport氣球驗證集上的平均精度均值(AP)達到了26.9。
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-2106-00666,
author = {Yuxin Fang and
Bencheng Liao and
Xinggang Wang and
Jiemin Fang and
Jiyang Qi and
Rui Wu and
Jianwei Niu and
Wenyu Liu},
title = {You Only Look at One Sequence: Rethinking Transformer in Vision through
Object Detection},
journal = {CoRR},
volume = {abs/2106.00666},
year = {2021},
url = {https://arxiv.org/abs/2106.00666},
eprinttype = {arXiv},
eprint = {2106.00666},
timestamp = {Fri, 29 Apr 2022 19:49:16 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2106-00666.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 信息表格
屬性 |
詳情 |
模型類型 |
基於視覺Transformer架構,使用DETR損失訓練的目標檢測模型 |
訓練數據 |
預訓練:ImageNet - 1k;微調:COCO 2017目標檢測數據集、Matterport氣球檢測數據集 |