V

Vit Giant Patch14 Dinov2.lvd142m

timmによって開発
Vision Transformer(ViT)ベースの巨大画像特徴抽出モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習
ダウンロード数 6,911
リリース時間 : 5/9/2023

モデル概要

これはVision Transformerアーキテクチャの巨大モデルで、画像特徴抽出や画像分類タスクに特化しています。DINOv2自己教師あり学習手法を用いて大規模データセットで事前学習されており、高品質な画像表現を生成できます。

モデル特徴

自己教師あり事前学習
DINOv2自己教師あり学習手法でLVD-142Mデータセット上で事前学習、人手のアノテーションデータ不要
巨大モデルアーキテクチャ
ViT-Giantアーキテクチャベース、11.365億パラメータを有し、より豊富な画像特徴を捕捉可能
高解像度処理
518×518ピクセルの高解像度画像入力に対応、詳細に富んだ視覚コンテンツの処理に適している
多機能出力
分類結果だけでなく生の画像特徴埋め込みも出力可能、様々な下流タスクに適用可能

モデル能力

画像特徴抽出
画像分類
画像埋め込み表現生成
視覚コンテンツ理解

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、最も可能性の高いクラスを出力
様々な視覚ベンチマークで優れた性能
特徴抽出
画像の深層特徴表現を抽出、下流タスクに利用
生成された高品質な特徴は検索、マッチングなどのタスクに使用可能
コンテンツ理解
視覚コンテンツ分析
画像内容を分析し、視覚要素やシーンを理解
画像中の高レベルな意味情報を捕捉可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase