V

Vit Small Patch14 Reg4 Dinov2.lvd142m

timmによって開発
レジスタを備えた視覚Transformer(ViT)画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習されています。
ダウンロード数 15.98k
リリース時間 : 10/30/2023

モデル概要

このモデルは主に画像分類と特徴抽出に使用され、視覚Transformerアーキテクチャを採用し、レジスタ機構を組み合わせて性能を向上させています。

モデル特徴

レジスタ機構
レジスタ機構を採用して視覚Transformerの性能を向上させ、従来のViTモデルの問題を解決します。
自己教師あり事前学習
DINOv2自己教師あり学習手法を使用してLVD-142Mデータセットで事前学習を行い、人手のアノテーションを必要としません。
効率的な特徴抽出
モデルのパラメータ数が比較的少ない(22.1M)ですが、画像特徴を効率的に抽出でき、様々な下流タスクに適用可能です。

モデル能力

画像分類
画像特徴抽出
視覚表現学習

使用事例

コンピュータビジョン
画像分類
物体やシーンなどの一般的な画像分類タスクに使用できます。
特徴抽出
物体検出や画像検索などの下流タスクに使用するための画像特徴を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase