V

Vit Giant Patch14 Reg4 Dinov2.lvd142m

timmによって開発
レジスタを備えた視覚Transformer(ViT)画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習されています。
ダウンロード数 917
リリース時間 : 10/30/2023

モデル概要

このモデルは主に画像分類と特徴抽出タスクに使用され、視覚Transformerアーキテクチャに基づき、大規模データセットで自己教師あり学習により事前学習されています。

モデル特徴

レジスタ強化
モデルはレジスタ技術を採用し、視覚Transformerの性能と安定性を向上させています。
自己教師あり学習
DINOv2自己教師あり学習手法を使用し、LVD-142Mデータセットで事前学習されています。
大規模事前学習
LVD-142M大規模データセットで事前学習されており、強力な特徴抽出能力を備えています。

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
画像を分類するために使用可能で、複数カテゴリの識別をサポートします。
複数のベンチマークデータセットで優れた性能を発揮
特徴抽出
下流の視覚タスク用の特徴抽出器として使用可能です。
抽出された特徴は物体検出、画像セグメンテーションなどのタスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase