🚀 大迁移 (BiT)
大迁移(BiT)模型由亚历山大·科列斯尼科夫(Alexander Kolesnikov)、卢卡斯·拜尔(Lucas Beyer)、翟晓华(Xiaohua Zhai)、琼·普伊格塞尔弗(Joan Puigcerver)、杰西卡·杨(Jessica Yung)、西尔万·热利(Sylvain Gelly)和尼尔·豪尔斯比(Neil Houlsby)在论文 大迁移 (BiT): 通用视觉表征学习 中提出。BiT 是一种用于扩大类似 残差网络 架构(具体为 ResNetv2)预训练规模的简单方法,该方法显著提升了迁移学习的效果。
声明:发布残差网络的团队并未为该模型撰写模型卡片,此模型卡片由 Hugging Face 团队撰写。
🚀 快速开始
BiT 模型可用于图像分类任务。你可以在 模型中心 查找针对特定任务微调后的版本。
✨ 主要特性
- 强大的迁移学习能力:通过扩大预训练规模,在 20 多个数据集上取得了出色的迁移学习效果。
- 广泛的数据适应性:在从每个类别 1 个样本到总共 100 万个样本的各种数据规模下都能表现良好。
📚 详细文档
模型描述
论文摘要如下:
在为视觉任务训练深度神经网络时,使用预训练表征进行迁移学习可以提高样本效率并简化超参数调整。我们重新审视了在大型有监督数据集上进行预训练,然后在目标任务上微调模型的范式。我们扩大了预训练规模,并提出了一种简单的方法,称为大迁移(BiT)。通过结合几个精心选择的组件,并使用简单的启发式方法进行迁移,我们在 20 多个数据集上取得了优异的性能。BiT 在各种数据规模下都表现出色,从每个类别 1 个样本到总共 100 万个样本。在 ILSVRC - 2012 数据集上,BiT 的前 1 准确率达到 87.5%;在 CIFAR - 10 数据集上达到 99.4%;在包含 19 个任务的视觉任务自适应基准(VTAB)上达到 76.3%。在小数据集上,每个类别 10 个样本的情况下,BiT 在 ILSVRC - 2012 上的准确率达到 76.8%,在 CIFAR - 10 上达到 97.0%。我们对促成高迁移性能的主要组件进行了详细分析。
预期用途和局限性
你可以使用原始模型进行图像分类。若想了解更多信息,请参考 模型中心 以查找针对你感兴趣任务的微调版本。
如何使用
以下是如何使用该模型将 COCO 2017 数据集中的图像分类到 1000 个 ImageNet 类别之一的示例:
from transformers import BitImageProcessor, BitForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
feature_extractor = BitImageProcessor.from_pretrained("google/bit-50")
model = BitForImageClassification.from_pretrained("google/bit-50")
inputs = feature_extractor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
>>> tabby, tabby cat
更多代码示例请参考 文档。
BibTeX 引用和引用信息
@misc{https://doi.org/10.48550/arxiv.1912.11370,
doi = {10.48550/ARXIV.1912.11370},
url = {https://arxiv.org/abs/1912.11370},
author = {Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Puigcerver, Joan and Yung, Jessica and Gelly, Sylvain and Houlsby, Neil},
keywords = {Computer Vision and Pattern Recognition (cs.CV), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Big Transfer (BiT): General Visual Representation Learning},
publisher = {arXiv},
year = {2019},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 许可证
本项目采用 Apache - 2.0 许可证。
属性 |
详情 |
模型类型 |
用于图像分类的视觉模型 |
训练数据 |
ImageNet - 1k 数据集 |