Google Vit Base Patch16 224 Cartoon Face Recognition

G

Google Vit Base Patch16 224 Cartoon Face Recognition

jayantaによって開発

Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたアニメ顔認識モデルで、画像分類タスクで優れた性能を発揮します

人の顔に関係がある

オープンソースライセンス:Apache-2.0 #アニメ顔認識 #高精度分類 #ViTファインチューニング

ダウンロード数 62

リリース時間 : 1/18/2023

モデル概要

このモデルはgoogle/vit-base-patch16-224を画像フォルダデータセットでファインチューニングしたバージョンで、アニメ顔認識タスク専用です。評価データセットで90%以上の精度を達成しました。

モデル特徴

高精度認識

アニメ顔認識タスクで90.05%の精度と90.66%の適合率を達成

ViTアーキテクチャ採用

Vision Transformerアーキテクチャを採用し、強力な画像特徴抽出能力を有する

効率的なファインチューニング

ベースモデル上でファインチューニングを行い、トレーニング効率が高く、リソース消費が比較的少ない

モデル能力

アニメ顔認識

画像分類

特徴抽出

使用事例

エンターテインメントアプリケーション

アニメキャラクター認識

アニメや漫画のキャラクターを識別

精度90.05%

表情分類

アニメキャラクターの表情を分類・識別

セキュリティ検証

アニメアバター検証

ユーザーがアップロードしたアニメアバターが要件を満たしているか検証

🚀 google-vit-base-patch16-224-漫画顔認識

このモデルは、google/vit-base-patch16-224 を imagefolder データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3707
正解率: 0.9005
適合率: 0.9066
再現率: 0.9005
F1値: 0.8984

📚 ドキュメント

モデルの説明

詳細情報はありません。

想定される用途と制限

詳細情報はありません。

学習と評価データ

詳細情報はありません。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.00012
学習バッチサイズ: 64
評価バッチサイズ: 64
シード: 42
勾配累積ステップ数: 4
総学習バッチサイズ: 256
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップ比率: 0.1
エポック数: 20

学習結果

学習損失	エポック	ステップ	検証損失	正解率	適合率	再現率	F1値
ログなし	0.89	6	0.5459	0.8611	0.8683	0.8611	0.8577
0.0812	1.89	12	0.4703	0.8796	0.8833	0.8796	0.8764
0.0812	2.89	18	0.4430	0.8935	0.8969	0.8935	0.8906
0.0307	3.89	24	0.4045	0.8819	0.8849	0.8819	0.8767
0.0091	4.89	30	0.3672	0.9005	0.9025	0.9005	0.8980
0.0091	5.89	36	0.3841	0.9028	0.9125	0.9028	0.9011
0.0043	6.89	42	0.3926	0.9005	0.9073	0.9005	0.8972
0.0043	7.89	48	0.3786	0.8958	0.9005	0.8958	0.8931
0.0031	8.89	54	0.3791	0.9028	0.9091	0.9028	0.9007
0.002	9.89	60	0.3677	0.9028	0.9106	0.9028	0.9001
0.002	10.89	66	0.3740	0.9028	0.9099	0.9028	0.9007
0.0027	11.89	72	0.3869	0.8981	0.9043	0.8981	0.8956
0.0027	12.89	78	0.3801	0.8981	0.9021	0.8981	0.8954
0.004	13.89	84	0.3674	0.9051	0.9113	0.9051	0.9028
0.0024	14.89	90	0.3620	0.9051	0.9096	0.9051	0.9027
0.0024	15.89	96	0.3670	0.9028	0.9089	0.9028	0.9006
0.0021	16.89	102	0.3827	0.9005	0.9065	0.9005	0.8980
0.0021	17.89	108	0.3748	0.8981	0.9049	0.8981	0.8958
0.0022	18.89	114	0.3825	0.9028	0.9101	0.9028	0.9006
0.0019	19.89	120	0.3707	0.9005	0.9066	0.9005	0.8984

フレームワークバージョン

Transformers 4.24.0.dev0
Pytorch 1.11.0+cu102
Datasets 2.6.1
Tokenizers 0.13.1

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase