V

Vit Base Patch16 224 In21k

googleによって開発
ImageNet - 21kデータセットを使って事前学習されたビジュアルTransformerモデルで、画像分類タスクに使用されます。
ダウンロード数 2.2M
リリース時間 : 3/2/2022

モデル概要

このビジュアルTransformer(ViT)モデルは、ImageNet - 21kデータセットを用いて224x224の解像度で事前学習され、BERTに似たTransformerエンコーダアーキテクチャを採用しており、画像分類などのビジュアルタスクに適しています。

モデル特徴

Transformerベースのビジュアルモデル
Transformerアーキテクチャをコンピュータビジョンタスクに成功させ、従来のCNNの制限を突破しました。
大規模事前学習
1400万枚の画像を含むImageNet - 21kデータセットで事前学習し、豊富なビジュアル特徴表現を学習しました。
画像ブロック処理
画像を16x16のブロックに分割して処理し、計算コストを効果的に削減します。

モデル能力

画像特徴抽出
画像分類
ビジュアル表現学習

使用事例

コンピュータビジョン
画像分類
画像を分類し、画像内の主要なオブジェクトやシーンを識別するために使用できます。
下流タスクの特徴抽出
特徴抽出器として機能し、他のビジュアルタスク(物体検出、画像セグメンテーションなど)に基本的な特徴を提供できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase