yolos-base開源目標檢測模型 - 免費部署精準識別物體表現出色

首頁

Yolos Base

由hustvl開發

YOLOS是一種基於視覺Transformer（ViT）的目標檢測模型，通過DETR損失訓練，在COCO數據集上達到42 AP的性能。

目標檢測

Transformers

開源協議:Apache-2.0 #Transformer目標檢測 #COCO數據集微調 #二分匹配損失

下載量 2,638

發布時間 : 4/26/2022

模型概述

YOLOS是一種使用DETR損失訓練的視覺Transformer（ViT），專為目標檢測任務設計。該模型在COCO 2017驗證集上表現出色，與DETR及Faster R-CNN等複雜框架性能相當。

模型特點

基於Transformer的目標檢測

YOLOS採用視覺Transformer架構，將目標檢測任務轉化為序列預測問題，簡化了傳統檢測框架的複雜性。

二分匹配損失

使用匈牙利匹配算法建立預測與標註間的最優對應關係，結合交叉熵損失與L1及廣義IoU損失優化模型參數。

高性能

在COCO 2017驗證集上達到42 AP的性能，與DETR及更復雜的Faster R-CNN框架相當。

模型能力

目標檢測

圖像分析

邊界框預測

使用案例

計算機視覺

場景理解

檢測圖像中的物體及其位置，適用於監控、自動駕駛等場景。

能夠準確識別並定位圖像中的多個物體。

圖像標註

自動為圖像生成包含物體類別和位置的標註信息。

提供高質量的圖像標註，減少人工標註成本。

🚀 YOLOS (基礎尺寸) 模型

YOLOS 是一個在目標檢測領域表現出色的模型。它基於 Vision Transformer 架構，通過在 COCO 2017 目標檢測數據集上進行微調，能夠精準地識別圖像中的各類物體，為圖像識別和分析提供了強大的支持。

🚀 快速開始

你可以使用這個原始模型進行目標檢測。查看模型中心以查找所有可用的 YOLOS 模型。

以下是如何使用此模型的示例代碼：

from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = YolosFeatureExtractor.from_pretrained('hustvl/yolos-base')
model = YolosForObjectDetection.from_pretrained('hustvl/yolos-base')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)

# 模型預測邊界框和對應的 COCO 類別
logits = outputs.logits
bboxes = outputs.pred_boxes

目前，特徵提取器和模型都支持 PyTorch。

✨ 主要特性

高性能：儘管結構簡單，但基礎尺寸的 YOLOS 模型在 COCO 2017 驗證集上能夠達到 42 AP，與 DETR 以及更復雜的框架（如 Faster R-CNN）表現相當。
獨特的訓練損失：模型使用“二分匹配損失”進行訓練，通過匈牙利匹配算法在查詢和標註之間創建一對一的最優映射，然後使用標準交叉熵（用於類別）和 L1 與廣義 IoU 損失的線性組合（用於邊界框）來優化模型參數。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import YolosFeatureExtractor, YolosForObjectDetection
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = YolosFeatureExtractor.from_pretrained('hustvl/yolos-base')
model = YolosForObjectDetection.from_pretrained('hustvl/yolos-base')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)

# 模型預測邊界框和對應的 COCO 類別
logits = outputs.logits
bboxes = outputs.pred_boxes

高級用法

文檔未提及高級用法相關代碼，故跳過此部分。

📚 詳細文檔

模型描述

YOLOS 是一個使用 DETR 損失進行訓練的 Vision Transformer (ViT)。儘管結構簡單，但基礎尺寸的 YOLOS 模型在 COCO 2017 驗證集上能夠達到 42 AP，與 DETR 以及更復雜的框架（如 Faster R-CNN）表現相當。

模型使用“二分匹配損失”進行訓練：將 N = 100 個目標查詢的預測類別和邊界框與真實標註進行比較，標註會填充到相同長度 N（因此，如果一張圖像僅包含 4 個物體，96 個標註的類別將為“無物體”，邊界框為“無邊界框”）。使用匈牙利匹配算法在 N 個查詢和 N 個標註之間創建一對一的最優映射。接下來，使用標準交叉熵（用於類別）和 L1 與廣義 IoU 損失的線性組合（用於邊界框）來優化模型參數。

預期用途和限制

你可以使用這個原始模型進行目標檢測。查看模型中心以查找所有可用的 YOLOS 模型。

訓練數據

YOLOS 模型在 ImageNet - 1k 上進行預訓練，並在 COCO 2017 目標檢測上進行微調。COCO 2017 數據集分別包含 118k/5k 張用於訓練/驗證的標註圖像。

訓練過程

模型在 ImageNet - 1k 上預訓練 1000 個 epoch，並在 COCO 上微調 150 個 epoch。

評估結果

該模型在 COCO 2017 驗證集上的平均精度 (AP) 達到了 42.0。有關評估結果的更多詳細信息，請參考原始論文。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節（具體技術說明少於 50 字），故跳過此章節。

📄 許可證

本模型使用 Apache - 2.0 許可證。

BibTeX 引用和引用信息

@article{DBLP:journals/corr/abs-2106-00666,
  author    = {Yuxin Fang and
               Bencheng Liao and
               Xinggang Wang and
               Jiemin Fang and
               Jiyang Qi and
               Rui Wu and
               Jianwei Niu and
               Wenyu Liu},
  title     = {You Only Look at One Sequence: Rethinking Transformer in Vision through
               Object Detection},
  journal   = {CoRR},
  volume    = {abs/2106.00666},
  year      = {2021},
  url       = {https://arxiv.org/abs/2106.00666},
  eprinttype = {arXiv},
  eprint    = {2106.00666},
  timestamp = {Fri, 29 Apr 2022 19:49:16 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2106-00666.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

信息表格

屬性	詳情
模型類型	基於 Vision Transformer 架構的目標檢測模型
訓練數據	在 ImageNet - 1k 上預訓練，在 COCO 2017 目標檢測數據集（包含 118k 張訓練圖像和 5k 張驗證圖像）上微調