V

Vit Base Patch14 Reg4 Dinov2.lvd142m

timmによって開発
レジスタを備えた視覚トランスフォーマー(ViT)画像特徴モデルで、自己教師ありのDINOv2手法を用いてLVD-142Mデータセットで事前学習されています。
ダウンロード数 40.95k
リリース時間 : 10/30/2023

モデル概要

このモデルは視覚トランスフォーマー(ViT)アーキテクチャに基づく画像特徴抽出バックボーンで、特に性能向上のためにレジスタ機構が追加されています。主に画像分類と特徴抽出タスクに使用されます。

モデル特徴

レジスタ強化
モデルはレジスタ機構を採用し、視覚トランスフォーマーの性能を向上させています
自己教師あり事前学習
DINOv2自己教師あり学習手法を使用してLVD-142Mデータセットで事前学習されています
大サイズ入力対応
518×518ピクセルの大サイズ画像入力をサポートしています

モデル能力

画像特徴抽出
画像分類
画像埋め込み表現生成

使用事例

コンピュータビジョン
画像分類
一般的な画像分類タスクに使用可能
特徴抽出
下流の視覚タスクに特徴表現を提供するバックボーンとして使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase