V

Vit Base Patch16 224.dino

timmによって開発
自己教師ありDINO手法で訓練されたVision Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
ダウンロード数 33.45k
リリース時間 : 12/22/2022

モデル概要

このモデルはDINO自己教師あり学習手法で訓練されたVision Transformerで、主に画像分類や特徴抽出のバックボーンネットワークとして使用されます。

モデル特徴

自己教師あり学習
DINO手法を用いた自己教師あり訓練により、大量の注釈データなしで効果的な視覚表現を学習できます。
Vision Transformerアーキテクチャ
標準的なViT-B/16アーキテクチャを採用し、画像を16x16のパッチに分割して処理します。
効率的な特徴抽出
特徴抽出のバックボーンネットワークとして使用可能で、768次元の特徴ベクトルを出力します。

モデル能力

画像分類
画像特徴抽出
視覚表現学習

使用事例

コンピュータビジョン
画像分類
画像を分類し、ImageNet-1kのクラス確率を出力します。
特徴抽出
画像の高レベルな特徴表現を抽出し、物体検出や画像検索などの下流タスクに利用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase