V

Vit Base Patch32 384

Developed by google
Vision Transformer(ViT)はTransformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kとImageNetデータセットで事前学習とファインチューニングを行い、効率的な画像認識能力を実現しています。
Downloads 24.92k
Release Time : 3/2/2022

Model Overview

ViTモデルは画像を固定サイズのパッチに分割し、Transformerエンコーダーで特徴抽出を行い、画像分類タスクに適しています。モデルはImageNet-21kで事前学習され、ImageNetでファインチューニングされ、高解像度画像処理をサポートします。

Model Features

Transformerベースの画像処理
画像を固定サイズのパッチに分割し、Transformerエンコーダーで特徴を抽出することで、従来のCNNの制限を突破しました。
高解像度ファインチューニング
ImageNetで384x384解像度でファインチューニングを行い、高解像度画像での分類性能を向上させました。
大規模事前学習
ImageNet-21k(1400万枚の画像、21,843クラス)で事前学習を行い、豊富な画像特徴表現を学習しました。

Model Capabilities

画像分類
特徴抽出

Use Cases

コンピュータビジョン
ImageNet画像分類
画像を1,000のImageNetクラスのいずれかに分類します。
ImageNetデータセットで優れた性能を示し、具体的な性能指標は原論文を参照してください。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase