V

Vit Base Patch14 Dinov2.lvd142m

timmによって開発
Vision Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習済み
ダウンロード数 50.71k
リリース時間 : 5/9/2023

モデル概要

このモデルは画像分類と特徴抽出のためのバックボーンネットワークで、Vision Transformerアーキテクチャを採用し、大規模データセット上での自己教師あり学習により事前学習されており、高品質な画像特徴表現を抽出可能です。

モデル特徴

自己教師あり事前学習
DINOv2自己教師あり学習手法を採用し、LVD-142Mデータセットで事前学習済み、人手によるアノテーションデータ不要
大サイズ画像処理
518×518ピクセルの大サイズ画像入力をサポートし、より豊富な視覚情報を捕捉可能
効率的な特徴抽出
モデル設計は計算効率を最適化し、GMACs演算量は151.7で、特徴抽出バックボーンネットワークとして適しています

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
物体認識、シーン分類など様々な画像分類タスクに利用可能
特徴抽出
他の視覚タスクのバックボーンネットワークとして使用可能で、高品質な画像特徴表現を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase