🚀 MegaDescriptor-L-384模型卡片
MegaDescriptor-L-384是一个基于Swin-L架构的图像特征模型,它在动物重识别数据集上进行了超智能的预训练,能够为动物图像的特征提取和重识别任务提供强大支持。
🚀 快速开始
MegaDescriptor-L-384是一个Swin-L图像特征模型,在动物重识别数据集上进行了预训练。下面是使用该模型生成图像嵌入的示例代码:
import timm
import torch
import torchvision.transforms as T
from PIL import Image
from urllib.request import urlopen
model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-384", pretrained=True)
model = model.eval()
train_transforms = T.Compose([T.Resize(size=(384, 384)),
T.ToTensor(),
T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
output = model(train_transforms(img).unsqueeze(0))
✨ 主要特性
- 适用领域广泛:适用于图像分类、生态学、动物识别和重识别等多个领域。
- 预训练优势:在动物重识别数据集上进行预训练,能更好地处理动物相关图像。
📚 详细文档
模型详情
模型使用
图像嵌入
import timm
import torch
import torchvision.transforms as T
from PIL import Image
from urllib.request import urlopen
model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-384", pretrained=True)
model = model.eval()
train_transforms = T.Compose([T.Resize(size=(384, 384)),
T.ToTensor(),
T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
output = model(train_transforms(img).unsqueeze(0))
引用信息
@inproceedings{vcermak2024wildlifedatasets,
title={WildlifeDatasets: An open-source toolkit for animal re-identification},
author={{\v{C}}erm{\'a}k, Vojt{\v{e}}ch and Picek, Lukas and Adam, Luk{\'a}{\v{s}} and Papafitsoros, Kostas},
booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
pages={5953--5963},
year={2024}
}
📄 许可证
本项目采用CC BY-NC 4.0许可证。