V

Vit Large Patch14 Reg4 Dinov2.lvd142m

timmによって開発
レジスタ付き視覚トランスフォーマー(ViT)画像特徴モデル、自己教師ありのDINOv2手法でLVD-142Mデータセット上で事前学習済み。
ダウンロード数 119.48k
リリース時間 : 10/30/2023

モデル概要

このモデルは視覚トランスフォーマー(ViT)アーキテクチャの画像特徴抽出モデルで、主に画像分類と特徴抽出タスクに使用されます。自己教師あり学習で大規模データセット上で事前学習されており、高品質な画像特徴を抽出できます。

モデル特徴

レジスタ強化
モデルはレジスタ機構を採用しており、視覚トランスフォーマーの性能を向上させ、特に画像背景や無関係な情報を処理する際に優れた性能を発揮します。
自己教師あり事前学習
DINOv2自己教師あり学習手法を使用し、LVD-142Mデータセットで事前学習されており、人手のアノテーションなしで強力な視覚特徴を学習できます。
大サイズ入力対応
518x518ピクセルの大サイズ画像入力をサポートし、より豊富な視覚的詳細を捉えることができます。

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
物体認識、シーン分類などの一般的な画像分類タスクに使用可能です。
特徴抽出
他の視覚タスクのバックボーンネットワークとして使用でき、高品質な画像特徴表現を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase