V

Vit Large Patch16 224.mae

Developed by timm
視覚トランスフォーマー(ViT)ベースの大規模画像特徴抽出モデルで、自己教師ありマスクオートエンコーダ(MAE)手法を用いてImageNet-1kデータセットで事前学習済み
Downloads 960
Release Time : 5/9/2023

Model Overview

このモデルは視覚トランスフォーマーアーキテクチャの大規模画像特徴抽出モデルで、主に画像分類と特徴抽出タスクに使用されます。マスクオートエンコーダ(MAE)による自己教師あり学習手法でImageNet-1kデータセットで事前学習されています。

Model Features

自己教師あり事前学習
マスクオートエンコーダ(MAE)手法による自己教師あり事前学習を採用し、大量の注釈データなしで有効な特徴表現を学習可能
大規模視覚トランスフォーマー
ViT-Largeアーキテクチャベースで303.3Mパラメータを持ち、豊富な視覚特徴を捉えることが可能
効率的な特徴抽出
画像のグローバル特徴やローカルパッチ特徴の抽出をサポートし、様々な下流視覚タスクに適用可能

Model Capabilities

画像分類
画像特徴抽出
視覚表現学習

Use Cases

コンピュータビジョン
画像分類
画像分類に使用可能で、1000クラスのImageNet分類タスクをサポート
特徴抽出
物体検出や画像セグメンテーションなどの下流視覚タスク用の特徴抽出器として使用可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase