V

Vit Base Patch8 224.dino

timmによって開発
自己教師ありDINO手法で訓練された視覚Transformer(ViT)画像特徴モデルで、画像分類や特徴抽出タスクに適しています。
ダウンロード数 9,287
リリース時間 : 12/22/2022

モデル概要

このモデルは自己教師あり学習DINO手法で訓練された視覚Transformer(ViT)で、主に画像分類や特徴バックボーンネットワークとして使用されます。画像から高品質な特徴表現を抽出でき、様々なコンピュータビジョンタスクに適用可能です。

モデル特徴

自己教師あり学習
DINO自己教師あり学習手法を採用しており、大量の注釈データがなくても効果的な画像表現を学習可能
効率的な特徴抽出
高品質な画像特徴表現を抽出可能で、下流のコンピュータビジョンタスクに適している
ViTアーキテクチャ
視覚Transformerアーキテクチャに基づき、グローバルな受容野と強力なモデリング能力を有する
事前学習モデル
ImageNet-1kデータセットで事前学習済みで、転移学習に直接使用可能

モデル能力

画像分類
画像特徴抽出
コンピュータビジョンタスクのバックボーンネットワーク

使用事例

コンピュータビジョン
画像分類
このモデルを使用して画像を分類
ImageNet-1kなどのベンチマークデータセットで良好な性能
特徴抽出
下流タスク用に画像特徴を抽出
高品質な画像表現を提供
転移学習
特定領域タスクのファインチューニング用の事前学習モデルとして使用
訓練データ要件を減らし、モデル性能を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase