S

Samvit Large Patch16.sa1b

timmによって開発
Segment-Anythingビジュアルトランスフォーマー(SAM ViT)画像特徴モデル、特徴抽出とファインチューニング機能のみを含み、セグメンテーションヘッドは含まれていません。
ダウンロード数 124
リリース時間 : 5/18/2023

モデル概要

このモデルはSA-1Bデータセットで事前学習されたビジュアルトランスフォーマーで、主に画像特徴抽出とファインチューニングタスクに使用され、重み初期化にはMAE事前学習重みが採用されています。

モデル特徴

大規模パッチ処理
16x16の大規模パッチ戦略で1024x1024解像度画像を処理
MAE事前学習初期化
重み初期化にMAE(Masked Autoencoder)事前学習戦略を採用
高計算効率
モデル計算量は1493.9 GMACs、活性化値2553.8百万、大規模画像処理に適しています

モデル能力

画像特徴抽出
画像分類
画像埋め込み表現

使用事例

コンピュータビジョン
画像分類
画像分類タスクに使用可能、画像特徴抽出後に分類を実行
画像検索
画像埋め込み特徴を抽出して類似画像検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase