V

Vit Large Patch14 Dinov2.lvd142m

pcuenqによって開発
視覚Transformer(ViT)ベースの画像特徴モデルで、自己教師ありDINOv2手法を用いてLVD-142Mデータセットで事前学習済み。
ダウンロード数 18
リリース時間 : 1/21/2025

モデル概要

これは大規模な視覚Transformerモデルで、主に画像特徴抽出と画像分類タスクに使用されます。DINOv2自己教師あり学習手法を用いてLVD-142Mデータセットで事前学習されており、高品質な画像表現を生成できます。

モデル特徴

自己教師あり事前学習
DINOv2自己教師あり学習手法を用いてLVD-142Mデータセットで事前学習されており、人手によるアノテーションデータが不要
大規模視覚Transformer
ViT-Largeアーキテクチャを基に、3億440万パラメータを持ち、高解像度画像を処理可能
高解像度処理能力
518×518ピクセルの高解像度画像入力をサポート

モデル能力

画像特徴抽出
画像分類
画像表現学習

使用事例

コンピュータビジョン
画像分類
物体認識、シーン分類など様々な画像分類タスクに使用可能
画像検索
抽出した画像特徴を利用して類似画像検索が可能
視覚表現学習
物体検出、セグメンテーションなど他の視覚タスクの基礎モデルとして使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase