🚀 MegaDescriptor-L-224模型卡片
MegaDescriptor-L-224是一个基于Swin-L架构的图像特征模型,由Supervisely在动物重识别数据集上进行了预训练,可有效用于动物重识别相关任务。
🚀 快速开始
本模型可用于生成图像嵌入向量。以下是一个简单的使用示例,展示了如何使用torch
和timm
库加载模型并处理图像:
import timm
import torch
import torchvision.transforms as T
from PIL import Image
from urllib.request import urlopen
model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-224", pretrained=True)
model = model.eval()
train_transforms = T.Compose([T.Resize(224),
T.ToTensor(),
T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
output = model(train_transforms(img).unsqueeze(0))
✨ 主要特性
- 模型类型:动物重识别/特征骨干网络
- 模型统计信息:
- 参数数量(百万):228.6
- 图像尺寸:224 x 224
- 架构:swin_large_patch4_window7_224
- 关联论文:
- 预训练数据集:所有可用的重识别数据集 --> WildlifeDatasets
💻 使用示例
基础用法
以下代码展示了如何使用该模型生成图像嵌入向量:
import timm
import torch
import torchvision.transforms as T
from PIL import Image
from urllib.request import urlopen
model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-224", pretrained=True)
model = model.eval()
train_transforms = T.Compose([T.Resize(224),
T.ToTensor(),
T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
output = model(train_transforms(img).unsqueeze(0))
📄 许可证
本项目采用CC BY-NC 4.0许可证。
📚 引用
如果您使用了本模型,请引用以下论文:
@inproceedings{vcermak2024wildlifedatasets,
title={WildlifeDatasets: An open-source toolkit for animal re-identification},
author={{\v{C}}erm{\'a}k, Vojt{\v{e}}ch and Picek, Lukas and Adam, Luk{\'a}{\v{s}} and Papafitsoros, Kostas},
booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
pages={5953--5963},
year={2024}
}