🚀 samvit_base_patch16.sa1b モデルカード
このモデルは、Segment-Anything Vision Transformer (SAM ViT) の画像特徴抽出モデルです(注: 特徴抽出と微調整用で、セグメンテーションヘッドは含まれません)。論文の著者によって、MAEの重みを初期値としてSA-1Bデータセットで事前学習されています。
🚀 クイックスタート
このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下に具体的な使用例を示します。
✨ 主な機能
- 画像分類や画像特徴抽出に適したバックボーンモデルです。
- SA-1Bデータセットで事前学習されているため、セグメンテーションタスクにも活用できます。
📦 インストール
このモデルはtimm
ライブラリを通じて利用できます。timm
のインストール方法については、公式リポジトリを参照してください。
💻 使用例
基本的な使用法
画像分類
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('samvit_base_patch16.sa1b', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
画像埋め込み
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'samvit_base_patch16.sa1b',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
📚 ドキュメント
モデル詳細
モデル比較
このモデルのデータセットと実行時間のメトリクスについては、timmのモデル結果を参照してください。
引用
@article{kirillov2023segany,
title={Segment Anything},
author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C. and Lo, Wan-Yen and Doll{'a}r, Piotr and Girshick, Ross},
journal={arXiv:2304.02643},
year={2023}
}
@article{dosovitskiy2020vit,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。