V

Vit Large Patch14 Dinov2.lvd142m

timmによって開発
視覚Transformer(ViT)ベースの自己教師あり画像特徴モデルで、DINOv2手法を用いてLVD-142Mデータセットで事前学習されており、画像分類や特徴抽出タスクに適しています。
ダウンロード数 32.01k
リリース時間 : 5/9/2023

モデル概要

このモデルは視覚Transformerアーキテクチャに基づく画像特徴抽出モデルで、大規模データセットでの自己教師あり学習により事前学習され、高品質な画像特徴表現を生成でき、様々なコンピュータビジョンタスクに適用可能です。

モデル特徴

自己教師あり事前学習
DINOv2自己教師あり学習手法を採用し、LVD-142Mデータセットで事前学習されており、人手によるアノテーションデータが不要です。
大規模モデル
3億440万パラメータを持つ大規模視覚Transformerアーキテクチャで、豊富な画像特徴を捉えることができます。
高解像度処理
518×518ピクセルの高解像度画像入力をサポートし、ディテール豊富な視覚コンテンツの処理に適しています。

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
画像内容の分類に使用可能で、top5予測結果の取得をサポートします。
特徴抽出
高品質な画像埋め込み特徴を抽出でき、下流の視覚タスクに使用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase