PaViTオープンソース画像認識モデル - 少量サンプル学習を利用して高精度な画像認識を実現

ホーム

Pavit

Ajibolaによって開発

PaViTはGoogleのPaLMにインスパイアされたPathway Vision Transformerを基にした画像認識モデルで、少数ショット学習技術の画像認識タスクへの応用に焦点を当てています。

画像分類複数言語対応オープンソースライセンス:MIT #少数ショット学習 #CPU効率的なトレーニング #自己注意最適化

ダウンロード数 20

リリース時間 : 2/23/2023

モデル概要

PaViTは画像認識用のVision Transformerモデルで、小規模データセットでの効率的な学習能力を示すことを目的としています。

モデル特徴

少数ショット学習能力

モデルは小規模データセットで優れた性能を発揮し、15,000枚の画像だけで高精度を達成

CPU効率的なトレーニング

4GBメモリのCPUで効率的にトレーニング可能な設計

拡張可能なアーキテクチャ

自己注意ヘッドと線形層を追加することでさらに性能向上が可能

モデル能力

画像分類

多クラス認識

使用事例

動物認識

ペット分類

猫、犬などのペットカテゴリを識別

3クラスの動物データセットで良好な性能

野生動物識別

様々な種類の野生動物を識別

🚀 Pathway Vision TransformerのREADME

PaViTは、Ajibola Emmanuel Oluwaseunによって開発されたPathway Vision Transformer (PaViT) ベースの画像認識モデルです。このモデルはGoogleのPaLM (Pathways Language Model) にインスパイアされており、画像認識タスクにおけるフェデレーションラーニング技術の可能性を示すことを目的としています。

🚀 クイックスタート

PaViTモデルを使用するには、以下の手順に従ってください。

ライブラリのインストール

#import Libraries
!pip install huggingface_hub["tensorflow"]
import matplotlib.pyplot as plt
import cv2
from huggingface_hub import from_pretrained_keras

推論時の使用方法

#load model
model=from_pretrained_keras('Ajibola/PaViT')
#load image
image=cv2.imread('image_path')
image=cv2.resize(image, (224, 224)) #224 is the default image size
image=image/image.max() #Normalize the image to [0-1]
prediction=model.predict(image)
prediction=np.argmax(prediction, axis=-1) #Get Highest probability class

✨ 主な機能

PaViTは、画像認識タスクに使用できます。
リポジトリに提供されている学習済みの重みを使用して、画像認識タスクを実行できます。
コードを変更して、カスタムデータセットを使用することもできます。
モデルの性能は、より多くの自己注意ヘッドと線形層を追加することでさらに向上させることができます。

📦 インストール

ライブラリのインストールには、以下のコマンドを使用します。

!pip install huggingface_hub["tensorflow"]

💻 使用例

基本的な使用法

#import Libraries
!pip install huggingface_hub["tensorflow"]
import matplotlib.pyplot as plt
import cv2
from huggingface_hub import from_pretrained_keras

高度な使用法

#load model
model=from_pretrained_keras('Ajibola/PaViT')
#load image
image=cv2.imread('image_path')
image=cv2.resize(image, (224, 224)) #224 is the default image size
image=image/image.max() #Normalize the image to [0-1]
prediction=model.predict(image)
prediction=np.argmax(prediction, axis=-1) #Get Highest probability class

📚 ドキュメント

モデルの性能

PaViTは、15クラスの15000枚のKaggle画像のデータセットを使用して、4GB RAMのCPU上で学習されました。4つの自己注意ヘッドを使用して、驚くほど88%の精度を達成しました。モデルは、12の自己注意ヘッドと12の線形積層線形層で学習すると、精度が96%に向上しました。これらの結果は、比較的小さなデータセットで学習されたにもかかわらず、CPU上でのモデルの印象的な性能と高速な学習速度を示しています。
アップロードされた重みは、3クラス（猫、犬、野生動物）の画像データセットで学習されました。

貢献

著者は、PaViTが既存のビジョントランスフォーマーモデルを上回る可能性があると信じており、開発者や他の貢献者の貢献を通じて、それが進化し続けることを期待しています。
このプロジェクトへの貢献は歓迎され、プルリクエストを通じて行うことができます。開発者はまた、問題を報告したり、プロジェクトに新機能を提案したりすることもできます。