MegaDescriptor-L-224开源图像特征模型 - 精准助力动物重识别任务

首页

Megadescriptor L 224

由 BVRA 开发

MegaDescriptor-L-224是一个基于Swin-L架构的图像特征模型，专为动物重识别任务设计，由Supervisely在动物重识别数据集上进行了预训练。

图像分类

PyTorch

#动物重识别 #Swin-L架构 #高维特征提取

下载量 1,181

发布时间 : 11/6/2023

模型简介

该模型主要用于生成图像嵌入向量，适用于动物重识别相关任务，能够有效提取图像特征用于后续识别和匹配。

模型特点

高效特征提取

基于Swin-L架构，能够高效提取图像特征，适用于动物重识别任务。

大规模预训练

在多个动物重识别数据集上进行预训练，具有强大的泛化能力。

高分辨率处理

支持224x224像素的图像输入，能够处理高分辨率图像。

模型能力

图像特征提取

动物重识别

图像嵌入生成

使用案例

野生动物保护

动物个体识别

用于识别和追踪野生动物个体，支持保护和研究工作。

宠物管理

宠物身份识别

用于识别宠物个体，支持宠物管理和寻回服务。

🚀 MegaDescriptor-L-224模型卡片

MegaDescriptor-L-224是一个基于Swin-L架构的图像特征模型，由Supervisely在动物重识别数据集上进行了预训练，可有效用于动物重识别相关任务。

🚀 快速开始

本模型可用于生成图像嵌入向量。以下是一个简单的使用示例，展示了如何使用torch和timm库加载模型并处理图像：

import timm
import torch
import torchvision.transforms as T

from PIL import Image
from urllib.request import urlopen

model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-224", pretrained=True)
model = model.eval()

train_transforms = T.Compose([T.Resize(224), 
                              T.ToTensor(), 
                              T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])]) 

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

output = model(train_transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor
# output is a (1, num_features) shaped tensor

✨ 主要特性

模型类型：动物重识别/特征骨干网络
模型统计信息：
- 参数数量（百万）：228.6
- 图像尺寸：224 x 224
- 架构：swin_large_patch4_window7_224
关联论文：
预训练数据集：所有可用的重识别数据集 --> WildlifeDatasets

💻 使用示例

基础用法

以下代码展示了如何使用该模型生成图像嵌入向量：

import timm
import torch
import torchvision.transforms as T

from PIL import Image
from urllib.request import urlopen

model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-224", pretrained=True)
model = model.eval()

train_transforms = T.Compose([T.Resize(224), 
                              T.ToTensor(), 
                              T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])]) 

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

output = model(train_transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor
# output is a (1, num_features) shaped tensor

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

如果您使用了本模型，请引用以下论文：

@inproceedings{vcermak2024wildlifedatasets,
  title={WildlifeDatasets: An open-source toolkit for animal re-identification},
  author={{\v{C}}erm{\'a}k, Vojt{\v{e}}ch and Picek, Lukas and Adam, Luk{\'a}{\v{s}} and Papafitsoros, Kostas},
  booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
  pages={5953--5963},
  year={2024}
}