vit-base-patch32-224-in21k-finetuned-eurosatオープンソースモデル - 無料でデプロイして衛星画像分類を実現

ホーム

Vit Base Patch32 224 In21k Finetuned Eurosat

keithanpaiによって開発

Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、EuroSATデータセットでファインチューニングされ、衛星画像分類タスクに使用されます

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #高精度画像分類 #リモートセンシング画像認識 #ViTファインチューニングモデル

ダウンロード数 20

リリース時間 : 1/13/2023

モデル概要

このモデルはVision Transformerアーキテクチャに基づく画像分類モデルで、EuroSAT衛星画像データセットでファインチューニングされており、リモートセンシング画像分類タスク専用です。

モデル特徴

高精度分類

評価セットで99.45%の精度を達成し、優れた性能を発揮します

Transformerアーキテクチャベース

従来のCNNではなくVision Transformerアーキテクチャを採用しており、より優れたグローバル特徴抽出能力を持っています

事前学習モデルのファインチューニング

ImageNet-21kで事前学習されたViTモデルを基にファインチューニングされており、強力な特徴抽出能力を持っています

モデル能力

衛星画像分類

リモートセンシング画像分析

マルチクラス画像認識

使用事例

リモートセンシング応用

土地利用分類

衛星画像中の異なる土地タイプを分類・識別します

精度99.45%

環境モニタリング

地表被覆の変化を識別・分析します

🚀 vit-base-patch32-224-in21k-finetuned-eurosat

このモデルは、google/vit-base-patch32-224-in21k を imagefolder データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.8115
正解率: 0.9945

📚 ドキュメント

モデルの概要

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-05
学習バッチサイズ: 32
評価バッチサイズ: 32
シード: 42
勾配累積ステップ: 4
総学習バッチサイズ: 128
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップ比率: 0.1
エポック数: 3

学習結果

学習損失	エポック	ステップ	検証損失	正解率
1.8903	1.0	102	1.5728	0.9517
1.2226	2.0	204	0.9374	0.9917
1.1069	3.0	306	0.8115	0.9945

フレームワークのバージョン

Transformers 4.25.1
Pytorch 1.13.0+cu116
Datasets 2.8.0
Tokenizers 0.13.2

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

📋 その他の情報

タグ: generated_from_trainer
データセット: imagefolder
評価指標: accuracy

モデルのインデックス

名前: vit-base-patch32-224-in21k-finetuned-eurosat
- 結果:
  - タスク:
    - 名前: Image Classification
    - タイプ: image-classification
  - データセット:
    - 名前: imagefolder
    - タイプ: imagefolder
    - 設定: default
    - 分割: train
    - 引数: default
  - 評価指標:
    - 名前: Accuracy
    - タイプ: accuracy
    - 値: 0.9944827586206897