D

Dino Vitb16

facebookによって開発
DINO自己教師あり手法で訓練された視覚Transformerモデルで、ViTアーキテクチャを採用し、ImageNet-1kデータセットで事前学習されています。
ダウンロード数 122.46k
リリース時間 : 3/2/2022

モデル概要

このモデルは自己教師あり学習によりImageNet-1kデータセットで事前訓練されており、下流の視覚タスクに使用できる画像特徴を抽出できます。モデルは16×16画像パッチ分割方式を採用し、ファインチューニング用のヘッドは含まれていません。

モデル特徴

自己教師あり学習
DINO手法を用いた自己教師あり訓練を行い、人手による注釈データなしで画像特徴を学習可能
ViTアーキテクチャ
Transformerエンコーダアーキテクチャに基づいて画像を処理し、16×16ピクセルのパッチに分割してシーケンシャルに処理
汎用特徴抽出
事前訓練モデルは汎用的な画像特徴を抽出でき、様々な下流視覚タスクに適用可能

モデル能力

画像特徴抽出
画像分類(分類ヘッドの追加が必要)
視覚表現学習

使用事例

コンピュータビジョン
画像分類
モデル上部に線形層を追加することで、画像分類タスクに使用可能
特徴抽出
物体検出やセグメンテーションなどの下流タスクに使用する画像特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase