E

Eva02 Base Patch14 224.mim In22k

timmによって開発
EVA02ベーシック版視覚表現モデル、マスク画像モデリングによりImageNet-22kで事前学習済み、画像分類と特徴抽出タスクに適しています。
ダウンロード数 2,834
リリース時間 : 3/31/2023

モデル概要

このモデルは改良されたビジョントランスフォーマーアーキテクチャを採用し、平均プーリング、SwiGLU活性化関数、回転位置埋め込みなどの技術を含み、効率的な画像特徴抽出のために設計されています。

モデル特徴

改良されたトランスフォーマーアーキテクチャ
回転位置埋め込み(ROPE)とSwiGLU活性化関数を採用し、位置認識能力と非線形表現能力を強化
効率的な事前学習戦略
EVA-CLIPをMIM(マスク画像モデリング)教師モデルとして使用し、知識蒸留を実施
マルチスケール特徴サポート
forward_featuresメソッドにより非プーリングのマルチレベル視覚特徴(257×768テンソル)を取得可能

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類システム
高精度画像分類器の構築に使用、224×224解像度入力をサポート
ImageNet-1kで88.23% Top1精度を達成
特徴抽出サービス
下流タスク(物体検出、画像検索など)のための視覚特徴抽出器として使用
768次元特徴ベクトルを出力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase