D

Dino Vitb8

facebookによって開発
DINO手法による自己教師あり学習で訓練されたVision Transformerモデル、8x8画像パッチ処理を採用、画像特徴抽出タスクに適応
ダウンロード数 1,664
リリース時間 : 3/2/2022

モデル概要

このモデルはDINO自己教師あり手法を用いてImageNet-1kデータセットで事前学習されたVision Transformer(ViT)で、主に画像表現学習に使用され、下流の視覚タスクの特徴抽出器として利用可能

モデル特徴

自己教師あり学習
DINO自己教師あり学習手法を採用、人手のアノテーションなしで画像特徴を学習可能
8x8画像パッチ処理
画像を8x8ピクセルのパッチに分割して処理、局所的特徴の捕捉に適している
Transformerアーキテクチャ
Transformerエンコーダーアーキテクチャに基づき、強力な特徴抽出能力を有する

モデル能力

画像特徴抽出
画像表現学習
下流視覚タスクの転移学習

使用事例

コンピュータビジョン
画像分類
事前学習モデルに分類ヘッドを追加してファインチューニング
物体検出
特徴抽出器として物体検出タスクに利用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase