vit_base_patch16_224.dino - mlximオープンソース画像分類モデル

ホーム

Vit Base Patch16 224.dino Mlxim

mlx-visionによって開発

Vision Transformerアーキテクチャに基づく画像分類モデルで、DINO自己教師付き方法を使用してImageNet - 1kデータセットでトレーニングされました。

画像分類

Safetensors

オープンソースライセンス:Apache-2.0 #自己教師付き視覚特徴抽出 #アテンションヒートマップ可視化 #画像バックボーンネットワーク

ダウンロード数 43

リリース時間 : 4/6/2024

モデル概要

このモデルは、画像分類タスクに特化したビジュアルTransformerモデルです。DINO自己教師付き学習方法を用いてトレーニングされ、バックボーンネットワークのみがトレーニングされ、分類ヘッドはトレーニングされていません。

モデル特徴

自己教師付き学習

DINO方法を使用して自己教師付きトレーニングを行い、大量の注釈付きデータを必要としません。

アテンションメカニズム可視化

アテンションヒートマップの生成をサポートし、モデルの注目点を理解するのに役立ちます。

特徴抽出

分類ヘッドの前の層の特徴を抽出でき、転移学習に適しています。

モデル能力

画像分類

特徴抽出

アテンション可視化

使用事例

コンピュータビジョン

画像分類

入力画像を分類識別します。

視覚特徴抽出

画像の高次特徴表現を抽出し、下流タスクに使用します。

🚀 vit_base_patch16_224.dino

このモデルは、DINOを用いてImageNet-1kデータセットで学習されたVision Transformerの画像分類モデルです。ImageNet-1kデータセットで自己教師あり学習方式で学習されており、分類ヘッドは学習されておらず、バックボーンのみが学習されています。

なお、これはtorchモデルの重みをApple MLX Frameworkに移植したものです。

🚀 クイックスタート

このセクションでは、モデルのインストールと使用方法について説明します。

📦 インストール

まずは、必要なライブラリをインストールしましょう。以下のコマンドを使用してmlx-imageをインストールできます。

pip install mlx-image

💻 使用例

基本的な使用法

以下は、このモデルを画像分類に使用する基本的なコード例です。

from mlxim.model import create_model
from mlxim.io import read_rgb
from mlxim.transform import ImageNetTransform

transform = ImageNetTransform(train=False, img_size=224)
x = transform(read_rgb("cat.png"))
x = mx.expand_dims(x, 0)

model = create_model("vit_base_patch16_224.dino")
model.eval()

logits, attn_masks = model(x, attn_masks=True)

高度な使用法

ヘッドの前のレイヤーから埋め込みを取得することもできます。以下に2つの方法を示します。

from mlxim.model import create_model
from mlxim.io import read_rgb
from mlxim.transform import ImageNetTransform

transform = ImageNetTransform(train=False, img_size=512)
x = transform(read_rgb("cat.png"))
x = mx.expand_dims(x, 0)

# 最初のオプション
model = create_model("vit_base_patch16_224.dino", num_classes=0)
model.eval()

embeds = model(x)

# 2番目のオプション
model = create_model("vit_base_patch16_224.dino")
model.eval()

embeds, attn_masks = model.get_features(x)