MegaDescriptor-L-384开源图像特征模型 - 助力动物重识别，服务生态学应用

首页

Megadescriptor L 384

由 BVRA 开发

基于Swin-L架构的图像特征模型，专为动物重识别任务设计，在生态学领域有广泛应用。

图像分类

PyTorch

#动物重识别 #Swin-L架构 #生态监测

下载量 5,957

发布时间 : 9/27/2023

模型简介

该模型是一个基于Swin Transformer架构的视觉特征提取模型，主要用于动物重识别任务。它在多个野生动物数据集上进行了预训练，能够生成高质量的图像嵌入特征。

模型特点

高性能特征提取

基于Swin-L架构，能够提取高质量的图像特征表示

动物重识别优化

专门针对动物重识别任务进行了优化和预训练

大尺寸输入支持

支持384x384像素的高分辨率图像输入

模型能力

图像特征提取

动物个体识别

野生动物监测

使用案例

生态保护

野生动物种群监测

用于识别和追踪特定野生动物个体，监测种群数量和活动范围

提高野生动物保护工作的效率和准确性

科学研究

动物行为研究

帮助研究人员识别和追踪特定动物个体，研究其行为模式

为动物行为学研究提供技术支持

🚀 MegaDescriptor-L-384模型卡片

MegaDescriptor-L-384是一个基于Swin-L架构的图像特征模型，它在动物重识别数据集上进行了超智能的预训练，能够为动物图像的特征提取和重识别任务提供强大支持。

🚀 快速开始

MegaDescriptor-L-384是一个Swin-L图像特征模型，在动物重识别数据集上进行了预训练。下面是使用该模型生成图像嵌入的示例代码：

import timm
import torch
import torchvision.transforms as T

from PIL import Image
from urllib.request import urlopen

model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-384", pretrained=True)
model = model.eval()

train_transforms = T.Compose([T.Resize(size=(384, 384)),
                              T.ToTensor(), 
                              T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])]) 

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

output = model(train_transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor
# output is a (1, num_features) shaped tensor

✨ 主要特性

适用领域广泛：适用于图像分类、生态学、动物识别和重识别等多个领域。
预训练优势：在动物重识别数据集上进行预训练，能更好地处理动物相关图像。

📚 详细文档

模型详情

属性	详情
模型类型	动物重识别/特征骨干网络
模型参数	228.8M
图像尺寸	384 x 384
架构	swin_large_patch4_window12_384
论文	WildlifeDatasets_An_Open-Source_Toolkit_for_Animal_Re-Identification
相关论文	Swin Transformer: Hierarchical Vision Transformer using Shifted Windows、DINOv2: Learning Robust Visual Features without Supervision
预训练数据集	所有可用的重识别数据集 --> https://github.com/WildlifeDatasets/wildlife-datasets

模型使用

图像嵌入

import timm
import torch
import torchvision.transforms as T

from PIL import Image
from urllib.request import urlopen

model = timm.create_model("hf-hub:BVRA/MegaDescriptor-L-384", pretrained=True)
model = model.eval()

train_transforms = T.Compose([T.Resize(size=(384, 384)),
                              T.ToTensor(), 
                              T.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])]) 

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

output = model(train_transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor
# output is a (1, num_features) shaped tensor

引用信息

@inproceedings{vcermak2024wildlifedatasets,
  title={WildlifeDatasets: An open-source toolkit for animal re-identification},
  author={{\v{C}}erm{\'a}k, Vojt{\v{e}}ch and Picek, Lukas and Adam, Luk{\'a}{\v{s}} and Papafitsoros, Kostas},
  booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
  pages={5953--5963},
  year={2024}
}