V

Vit Small Patch14 Dinov2.lvd142m

timmによって開発
視覚Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習
ダウンロード数 35.85k
リリース時間 : 5/9/2023

モデル概要

これは小型の視覚Transformerモデルで、画像特徴抽出に特化しています。DINOv2自己教師あり学習手法を用いてLVD-142Mデータセットで事前学習されており、高品質な画像表現を生成できます。

モデル特徴

自己教師あり学習
DINOv2自己教師あり学習手法を採用、人手のアノテーション不要で高品質な画像特徴を学習
効率的なアーキテクチャ
小型ViTアーキテクチャ、適度なパラメータ数(22.1M)、計算効率が高い
大規模事前学習
LVD-142M大規模データセットで事前学習、広範な視覚特徴を学習

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
抽出した特徴を用いて画像分類タスクに利用可能
視覚検索
画像特徴を抽出して類似画像検索に利用
下流視覚タスク
事前学習モデルとして、様々な下流視覚タスクのファインチューニングに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase