vit-base-oxford-iiit-petsオープンソースペット品種分類モデル - ペットの種類を高精度に識別、正解率は約95%

ホーム

Vit Base Oxford Iiit Pets

ISxOdinによって開発

Google Vision Transformer (ViT)をファインチューニングしたペット品種分類モデルで、Oxford-IIITペットデータセットで94.45%の精度を達成

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #ペット品種分類 #ViTファインチューニングモデル #高精度画像認識

ダウンロード数 78

リリース時間 : 4/1/2025

モデル概要

このモデルはgoogle/vit-base-patch16-224をpcuenq/oxford-petsデータセットでファインチューニングしたバージョンで、37種類の異なる猫と犬の品種を識別する画像分類タスク専用です。

モデル特徴

高精度

Oxford-IIITペットデータセットで94.45%の分類精度を達成

転移学習

事前学習済みVision Transformerモデルを基にファインチューニングし、事前学習知識を効果的に活用

教育向け

転移学習と視覚モデルのファインチューニングの教育デモケースとして適しています

モデル能力

画像分類

ペット品種識別

転移学習ファインチューニング

使用事例

教育

転移学習教育

コンピュータビジョンコースにおける転移学習の教育ケースとして

ペット識別

ペット品種分類

37種類の異なる猫と犬の品種を識別

94.45%精度

モデル比較

ゼロショットモデルとの比較

CLIPなどのゼロショットモデルとの性能比較分析

CLIP精度88.00%

🚀 vit-base-oxford-iiit-pets

このモデルは、google/vit-base-patch16-224 を pcuenq/oxford-pets データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1924
正解率: 0.9445

✨ 主な機能

モデルの説明

このモデルは、事前学習された Vision Transformer (google/vit-base-patch16-224) を、Oxford-IIIT Pet データセットの画像分類に合わせてファインチューニングしたものです。転移学習を用いて、汎用的なビジョンモデルを 37 種類の猫と犬の品種を識別するように適応させています。モデルの出力層はデータセットのクラス数に合わせて調整され、標準的な分類損失を用いてエンドツーエンドで学習されています。

想定される用途と制限

想定される用途:

転移学習とビジョンモデルのファインチューニングに関する教育的なデモ。
Oxford Pets と同様の構造化データセットにおけるペットの品種分類。
CLIP のようなゼロショットモデルとの比較分析。

制限:

Oxford-IIIT データセット外の品種に対しては汎化性能が低い可能性があります。
実世界の医療や安全に関わる重要なアプリケーションには適していません。
入力画像は明瞭で中央に位置し、学習データとスタイルが近い（切り抜かれたペットの肖像画）必要があります。

学習と評価データ

このモデルは、Oxford-IIIT Pet データセットを用いて学習および評価されています。このデータセットには、37 種類の猫と犬の 7,349 枚の画像が含まれており、ペットの品種は均等に表現されています。データセットは学習セット、検証セット、テストセットに分割されています。評価指標には、正解率、適合率、再現率が使用されています。

学習手順

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率: 0.0003
学習バッチサイズ: 16
評価バッチサイズ: 8
乱数シード: 42
オプティマイザ: betas=(0.9,0.999)、epsilon=1e-08 の adamw_torch を使用。追加のオプティマイザ引数はありません。
学習率スケジューラの種類: 線形
エポック数: 5

学習結果

学習損失	エポック	ステップ	検証損失	正解率
0.3716	1.0	370	0.3013	0.9242
0.2048	2.0	740	0.2342	0.9310
0.1764	3.0	1110	0.2124	0.9350
0.1617	4.0	1480	0.2050	0.9350
0.1235	5.0	1850	0.2032	0.9350

ゼロショット分類評価 (CLIP)

ゼロショット画像分類モデルである openai/clip-vit-base-patch32 を用いて、Oxford-IIIT Pet データセットを評価しました。学習ではなく、CLIP モデルは品種名のリスト（例: "Siamese", "Persian", "Chihuahua"）をゼロショット分類の候補ラベルとして評価されました。