V

Vit Base Patch16 224 In21k

Developed by google
ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。
Downloads 2.2M
Release Time : 3/2/2022

Model Overview

このビジュアルTransformer(ViT)モデルは、ImageNet - 21kデータセットを用いて224x224の解像度で事前学習され、BERTに似たTransformerエンコーダアーキテクチャを採用しており、画像分類などのビジュアルタスクに適しています。

Model Features

Transformerベースのビジュアルモデル
Transformerアーキテクチャをコンピュータビジョンタスクに成功させ、従来のCNNの制限を突破しました。
大規模事前学習
1400万枚の画像を含むImageNet - 21kデータセットで事前学習し、豊富なビジュアル特徴表現を学習しました。
画像ブロック処理
画像を16x16のブロックに分割して処理し、計算コストを効果的に削減します。

Model Capabilities

画像特徴抽出
画像分類
ビジュアル表現学習

Use Cases

コンピュータビジョン
画像分類
画像を分類し、画像内の主要なオブジェクトやシーンを識別するために使用できます。
下流タスクの特徴抽出
特徴抽出器として機能し、他のビジュアルタスク(物体検出、画像セグメンテーションなど)に基本的な特徴を提供できます。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase