犬種圖像分類開源模型 - 免費支持120種犬類圖像精準識別

首頁

Dog Breeds Multiclass Image Classification With Vit

由wesleyacheng開發

使用谷歌視覺Transformer架構微調的犬種分類模型，支持120種犬類的圖像識別

圖像分類

Transformers

開源協議:MIT #犬種精細分類 #視覺Transformer架構 #ImageNet-21k預訓練

下載量 584

發布時間 : 7/9/2023

模型概述

該模型基於谷歌視覺Transformer(vit-base-patch16-224-in21k)架構，在斯坦福狗狗數據集上微調訓練，專門用於120種犬類的圖像分類任務。

模型特點

先進視覺架構

採用谷歌視覺Transformer架構，通過自注意力機制實現全局圖像感知

高精度分類

在120種犬類分類任務上達到84%的Top-1準確率和97.1%的Top-3準確率

預訓練優勢

基於ImageNet-21k大規模預訓練模型微調，有效克服數據限制

模型能力

犬種圖像分類

多類別圖像識別

使用案例

寵物識別

犬種自動識別

通過上傳犬隻照片自動識別其品種

Top-1準確率84%，Top-3準確率97.1%

寵物管理

寵物檔案建立

為寵物醫院或收容所自動建立犬種檔案

🚀 犬種多分類圖像識別模型

本項目基於視覺變換器（Vision Transformer）模型，對犬類圖像進行分類，可識別 120 種不同犬種。該模型使用了預訓練的 Google Vision Transformer 模型，並在斯坦福犬類數據集上進行微調，具有較高的準確性和良好的泛化能力。

🚀 快速開始

模型背景

最近，有人問我是否可以將犬類圖像分類為不同的犬種，而不是像我之前的筆記本那樣僅僅區分貓和狗。答案是肯定的！

由於問題的複雜性，我們將使用 2020 年 Google 論文中發佈的最先進的計算機視覺架構——視覺變換器（Vision Transformer）。

模型原理

視覺變換器（Vision Transformer） 與傳統的 卷積神經網絡（CNN） 的區別在於對圖像的處理方式。在 視覺變換器 中，我們將輸入視為原始圖像的一個補丁（例如 16 x 16），並將其作為帶有位置嵌入和自注意力的序列輸入到變換器中；而在 卷積神經網絡（CNN） 中，我們使用相同的原始圖像補丁作為輸入，但使用卷積和池化層作為歸納偏置。這意味著 視覺變換器 可以使用其自注意力機制以“全局”方式關注圖像的任何特定補丁，而無需像 CNN 那樣通過“局部”居中/裁剪/邊界框來引導神經網絡進行卷積操作。

這使得 視覺變換器 架構在本質上更加靈活和可擴展，使我們能夠在計算機視覺中創建基礎模型，類似於自然語言處理中的基礎模型，如 BERT 和 GPT，通過在大量圖像數據上進行預訓練（自監督/監督），可以推廣到不同的計算機視覺任務，如圖像分類、識別、分割等。這種交叉融合有助於我們更接近通用人工智能的目標。

需要注意的是，與 卷積神經網絡 相比，視覺變換器 的歸納偏置較弱，這使得它具有可擴展性和靈活性。但這一特點（或缺點，取決於你的看法）要求大多數表現良好的預訓練模型需要更多的數據，儘管與 CNN 相比，它的參數更少。

幸運的是，在這個模型中，我們將使用 Google 託管在 HuggingFace 上的 視覺變換器，該模型在 ImageNet-21k 數據集（1400 萬張圖像，21000 個類別）上進行了預訓練，補丁大小為 16x16，分辨率為 224x224，以繞過數據限制。我們將在來自斯坦福犬類數據集的約 20000 張圖像的“小”犬種數據集上對該模型進行微調，以將犬類圖像分類為 120 種不同的犬種！

✨ 主要特性

基於先進架構：採用視覺變換器（Vision Transformer）架構，具有更好的靈活性和可擴展性。
預訓練模型微調：使用在 ImageNet-21k 數據集上預訓練的 Google Vision Transformer 模型，在斯坦福犬類數據集上進行微調，提高模型性能。
多指標評估：使用 Top-1 準確率、Top-3 準確率、Top-5 準確率和 Macro F1 等多個指標對模型進行評估，確保模型的準確性和泛化能力。

📦 安裝指南

本模型使用 Python 編寫，依賴於 transformers、PIL 和 requests 等庫。可以使用以下命令安裝所需的庫：

pip install transformers pillow requests

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, AutoModelForImageClassification
import PIL
import requests

url = "https://upload.wikimedia.org/wikipedia/commons/5/55/Beagle_600.jpg"
image = PIL.Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("wesleyacheng/dog-breeds-multiclass-image-classification-with-vit")
model = AutoModelForImageClassification.from_pretrained("wesleyacheng/dog-breeds-multiclass-image-classification-with-vit")

inputs = image_processor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 120 Stanford dog breeds classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])