regnety_1280.seer開源特徵提取模型 - 免費部署助力圖片特徵精準提取

首頁

Regnety 1280.seer

由timm開發

RegNetY-128GF特徵提取模型，採用SEER方法在20億張隨機網絡圖片上進行自監督預訓練

圖像分類

Transformers

開源協議:其他 #自監督預訓練 #大規模圖像特徵提取 #RegNet架構

下載量 62

發布時間 : 3/21/2023

模型概述

一個基於RegNetY架構的圖像特徵提取骨幹模型，通過SEER自監督學習方法在大規模隨機網絡圖像上預訓練，適用於圖像分類和特徵提取任務

模型特點

大規模自監督預訓練

使用20億張隨機網絡圖片通過SwAV方法進行自監督學習預訓練

高效特徵提取

優化的RegNetY架構設計，提供高效的特徵提取能力

timm增強實現

包含隨機深度、梯度檢查點等多項timm特有增強功能

模型能力

圖像特徵提取

圖像分類

計算機視覺任務骨幹網絡

使用案例

計算機視覺

圖像分類

使用預訓練模型進行圖像分類任務

在多種視覺任務中表現出色

特徵提取

作為其他計算機視覺任務的骨幹網絡提取特徵

提供高質量的特徵表示

🚀 regnety_1280.seer模型卡

RegNetY-128GF是一個特徵/骨幹網絡模型。它根據SEER方法進行預訓練，即在“20億張隨機互聯網圖像”上使用SwAV進行自監督學習。

timm庫中的RegNet實現包含了許多其他實現中沒有的增強功能，包括：

隨機深度
梯度檢查點
逐層學習率衰減
可配置的輸出步幅（膨脹率）
可配置的激活層和歸一化層
RegNetV變體中使用的預激活瓶頸塊選項
唯一已知的帶有預訓練權重的RegNetZ模型定義

✨ 主要特性

模型類型：圖像分類/特徵骨幹網絡
模型統計信息：
- 參數數量（M）：637.4
- GMACs：127.7
- 激活值數量（M）：71.6
- 圖像尺寸：224 x 224
相關論文：
- Self-supervised Pretraining of Visual Features in the Wild: https://arxiv.org/abs/2103.01988v2
- Designing Network Design Spaces: https://arxiv.org/abs/2003.13678
原始代碼庫：https://github.com/facebookresearch/vissl
預訓練數據集：RandomInternetImages-2B

屬性	詳情
模型類型	圖像分類/特徵骨幹網絡
訓練數據	RandomInternetImages-2B

🚀 快速開始

本模型可以用於圖像分類、特徵圖提取和圖像嵌入等任務。以下是具體的使用示例。

💻 使用示例

基礎用法

圖像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('regnety_1280.seer', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

特徵圖提取

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'regnety_1280.seer',
    pretrained=True,
    features_only=True,
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

for o in output:
    # print shape of each feature map in output
    # e.g.:
    #  torch.Size([1, 32, 112, 112])
    #  torch.Size([1, 528, 56, 56])
    #  torch.Size([1, 1056, 28, 28])
    #  torch.Size([1, 2904, 14, 14])
    #  torch.Size([1, 7392, 7, 7])

    print(o.shape)

圖像嵌入

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'regnety_1280.seer',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 7392, 7, 7) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 詳細文檔

模型比較

你可以在timm 模型結果中查看本模型的數據集和運行時指標。

以下比較總結中，標記為ra_in1k、ra3_in1k、ch_in1k、sw_*和lion_*的權重是在timm中訓練的。

模型	圖像尺寸	top1準確率	top5準確率	參數數量	GMACs	MACTs
regnety_1280.swag_ft_in1k	384	88.228	98.684	644.81	374.99	210.2
regnety_320.swag_ft_in1k	384	86.84	98.364	145.05	95.0	88.87
regnety_160.swag_ft_in1k	384	86.024	98.05	83.59	46.87	67.67
regnety_160.sw_in12k_ft_in1k	288	86.004	97.83	83.59	26.37	38.07
regnety_1280.swag_lc_in1k	224	85.996	97.848	644.81	127.66	71.58
regnety_160.lion_in12k_ft_in1k	288	85.982	97.844	83.59	26.37	38.07
regnety_160.sw_in12k_ft_in1k	224	85.574	97.666	83.59	15.96	23.04
regnety_160.lion_in12k_ft_in1k	224	85.564	97.674	83.59	15.96	23.04
regnety_120.sw_in12k_ft_in1k	288	85.398	97.584	51.82	20.06	35.34
regnety_2560.seer_ft_in1k	384	85.15	97.436	1282.6	747.83	296.49
regnetz_e8.ra3_in1k	320	85.036	97.268	57.7	15.46	63.94
regnety_120.sw_in12k_ft_in1k	224	84.976	97.416	51.82	12.14	21.38
regnety_320.swag_lc_in1k	224	84.56	97.446	145.05	32.34	30.26
regnetz_040_h.ra3_in1k	320	84.496	97.004	28.94	6.43	37.94
regnetz_e8.ra3_in1k	256	84.436	97.02	57.7	9.91	40.94
regnety_1280.seer_ft_in1k	384	84.432	97.092	644.81	374.99	210.2
regnetz_040.ra3_in1k	320	84.246	96.93	27.12	6.35	37.78
regnetz_d8.ra3_in1k	320	84.054	96.992	23.37	6.19	37.08
regnetz_d8_evos.ch_in1k	320	84.038	96.992	23.46	7.03	38.92
regnetz_d32.ra3_in1k	320	84.022	96.866	27.58	9.33	37.08
regnety_080.ra3_in1k	288	83.932	96.888	39.18	13.22	29.69
regnety_640.seer_ft_in1k	384	83.912	96.924	281.38	188.47	124.83
regnety_160.swag_lc_in1k	224	83.778	97.286	83.59	15.96	23.04
regnetz_040_h.ra3_in1k	256	83.776	96.704	28.94	4.12	24.29
regnetv_064.ra3_in1k	288	83.72	96.75	30.58	10.55	27.11
regnety_064.ra3_in1k	288	83.718	96.724	30.58	10.56	27.11
regnety_160.deit_in1k	288	83.69	96.778	83.59	26.37	38.07
regnetz_040.ra3_in1k	256	83.62	96.704	27.12	4.06	24.19
regnetz_d8.ra3_in1k	256	83.438	96.776	23.37	3.97	23.74
regnetz_d32.ra3_in1k	256	83.424	96.632	27.58	5.98	23.74
regnetz_d8_evos.ch_in1k	256	83.36	96.636	23.46	4.5	24.92
regnety_320.seer_ft_in1k	384	83.35	96.71	145.05	95.0	88.87
regnetv_040.ra3_in1k	288	83.204	96.66	20.64	6.6	20.3
regnety_320.tv2_in1k	224	83.162	96.42	145.05	32.34	30.26
regnety_080.ra3_in1k	224	83.16	96.486	39.18	8.0	17.97
regnetv_064.ra3_in1k	224	83.108	96.458	30.58	6.39	16.41
regnety_040.ra3_in1k	288	83.044	96.5	20.65	6.61	20.3
regnety_064.ra3_in1k	224	83.02	96.292	30.58	6.39	16.41
regnety_160.deit_in1k	224	82.974	96.502	83.59	15.96	23.04
regnetx_320.tv2_in1k	224	82.816	96.208	107.81	31.81	36.3
regnety_032.ra_in1k	288	82.742	96.418	19.44	5.29	18.61
regnety_160.tv2_in1k	224	82.634	96.22	83.59	15.96	23.04
regnetz_c16_evos.ch_in1k	320	82.634	96.472	13.49	3.86	25.88
regnety_080_tv.tv2_in1k	224	82.592	96.246	39.38	8.51	19.73
regnetx_160.tv2_in1k	224	82.564	96.052	54.28	15.99	25.52
regnetz_c16.ra3_in1k	320	82.51	96.358	13.46	3.92	25.88
regnetv_040.ra3_in1k	224	82.44	96.198	20.64	4.0	12.29
regnety_040.ra3_in1k	224	82.304	96.078	20.65	4.0	12.29
regnetz_c16.ra3_in1k	256	82.16	96.048	13.46	2.51	16.57
regnetz_c16_evos.ch_in1k	256	81.936	96.15	13.49	2.48	16.57
regnety_032.ra_in1k	224	81.924	95.988	19.44	3.2	11.26
regnety_032.tv2_in1k	224	81.77	95.842	19.44	3.2	11.26
regnetx_080.tv2_in1k	224	81.552	95.544	39.57	8.02	14.06
regnetx_032.tv2_in1k	224	80.924	95.27	15.3	3.2	11.37
regnety_320.pycls_in1k	224	80.804	95.246	145.05	32.34	30.26
regnetz_b16.ra3_in1k	288	80.712	95.47	9.72	2.39	16.43
regnety_016.tv2_in1k	224	80.66	95.334	11.2	1.63	8.04
regnety_120.pycls_in1k	224	80.37	95.12	51.82	12.14	21.38
regnety_160.pycls_in1k	224	80.288	94.964	83.59	15.96	23.04
regnetx_320.pycls_in1k	224	80.246	95.01	107.81	31.81	36.3
regnety_080.pycls_in1k	224	79.882	94.834	39.18	8.0	17.97
regnetz_b16.ra3_in1k	224	79.872	94.974	9.72	1.45	9.95
regnetx_160.pycls_in1k	224	79.862	94.828	54.28	15.99	25.52
regnety_064.pycls_in1k	224	79.716	94.772	30.58	6.39	16.41
regnetx_120.pycls_in1k	224	79.592	94.738	46.11	12.13	21.37
regnetx_016.tv2_in1k	224	79.44	94.772	9.19	1.62	7.93
regnety_040.pycls_in1k	224	79.23	94.654	20.65	4.0	12.29
regnetx_080.pycls_in1k	224	79.198	94.55	39.57	8.02	14.06
regnetx_064.pycls_in1k	224	79.064	94.454	26.21	6.49	16.37
regnety_032.pycls_in1k	224	78.884	94.412	19.44	3.2	11.26
regnety_008_tv.tv2_in1k	224	78.654	94.388	6.43	0.84	5.42
regnetx_040.pycls_in1k	224	78.482	94.24	22.12	3.99	12.2
regnetx_032.pycls_in1k	224	78.178	94.08	15.3	3.2	11.37
regnety_016.pycls_in1k	224	77.862	93.73	11.2	1.63	8.04
regnetx_008.tv2_in1k	224	77.302	93.672	7.26	0.81	5.15
regnetx_016.pycls_in1k	224	76.908	93.418	9.19	1.62	7.93
regnety_008.pycls_in1k	224	76.296	93.05	6.26	0.81	5.25
regnety_004.tv2_in1k	224	75.592	92.712	4.34	0.41	3.89
regnety_006.pycls_in1k	224	75.244	92.518	6.06	0.61	4.33
regnetx_008.pycls_in1k	224	75.042	92.342	7.26	0.81	5.15
regnetx_004_tv.tv2_in1k	224	74.57	92.184	5.5	0.42	3.17
regnety_004.pycls_in1k	224	74.018	91.764	4.34	0.41	3.89
regnetx_006.pycls_in1k	224	73.862	91.67	6.2	0.61	3.98
regnetx_004.pycls_in1k	224	72.38	90.832	5.16	0.4	3.14
regnety_002.pycls_in1k	224	70.282	89.534	3.16	0.2	2.17
regnetx_002.pycls_in1k	224	68.752	88.556	2.68	0.2	2.16

📄 許可證

🔧 技術細節

引用

如果你在研究中使用了本模型，請引用以下論文：

@article{goyal2022vision,
  title={Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision}, 
  author={Priya Goyal and Quentin Duval and Isaac Seessel and Mathilde Caron and Ishan Misra and Levent Sagun and Armand Joulin and Piotr Bojanowski},
  year={2022},
  eprint={2202.08360},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@InProceedings{Radosavovic2020,
  title = {Designing Network Design Spaces},
  author = {Ilija Radosavovic and Raj Prateek Kosaraju and Ross Girshick and Kaiming He and Piotr Doll{'a}r},
  booktitle = {CVPR},
  year = {2020}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}