🚀 大遷移 (BiT)
大遷移(BiT)模型由亞歷山大·科列斯尼科夫(Alexander Kolesnikov)、盧卡斯·拜爾(Lucas Beyer)、翟曉華(Xiaohua Zhai)、瓊·普伊格塞爾弗(Joan Puigcerver)、傑西卡·楊(Jessica Yung)、西爾萬·熱利(Sylvain Gelly)和尼爾·豪爾斯比(Neil Houlsby)在論文 大遷移 (BiT): 通用視覺表徵學習 中提出。BiT 是一種用於擴大類似 殘差網絡 架構(具體為 ResNetv2)預訓練規模的簡單方法,該方法顯著提升了遷移學習的效果。
聲明:發佈殘差網絡的團隊並未為該模型撰寫模型卡片,此模型卡片由 Hugging Face 團隊撰寫。
🚀 快速開始
BiT 模型可用於圖像分類任務。你可以在 模型中心 查找針對特定任務微調後的版本。
✨ 主要特性
- 強大的遷移學習能力:通過擴大預訓練規模,在 20 多個數據集上取得了出色的遷移學習效果。
- 廣泛的數據適應性:在從每個類別 1 個樣本到總共 100 萬個樣本的各種數據規模下都能表現良好。
📚 詳細文檔
模型描述
論文摘要如下:
在為視覺任務訓練深度神經網絡時,使用預訓練表徵進行遷移學習可以提高樣本效率並簡化超參數調整。我們重新審視了在大型有監督數據集上進行預訓練,然後在目標任務上微調模型的範式。我們擴大了預訓練規模,並提出了一種簡單的方法,稱為大遷移(BiT)。通過結合幾個精心選擇的組件,並使用簡單的啟發式方法進行遷移,我們在 20 多個數據集上取得了優異的性能。BiT 在各種數據規模下都表現出色,從每個類別 1 個樣本到總共 100 萬個樣本。在 ILSVRC - 2012 數據集上,BiT 的前 1 準確率達到 87.5%;在 CIFAR - 10 數據集上達到 99.4%;在包含 19 個任務的視覺任務自適應基準(VTAB)上達到 76.3%。在小數據集上,每個類別 10 個樣本的情況下,BiT 在 ILSVRC - 2012 上的準確率達到 76.8%,在 CIFAR - 10 上達到 97.0%。我們對促成高遷移性能的主要組件進行了詳細分析。
預期用途和侷限性
你可以使用原始模型進行圖像分類。若想了解更多信息,請參考 模型中心 以查找針對你感興趣任務的微調版本。
如何使用
以下是如何使用該模型將 COCO 2017 數據集中的圖像分類到 1000 個 ImageNet 類別之一的示例:
from transformers import BitImageProcessor, BitForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
feature_extractor = BitImageProcessor.from_pretrained("google/bit-50")
model = BitForImageClassification.from_pretrained("google/bit-50")
inputs = feature_extractor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
>>> tabby, tabby cat
更多代碼示例請參考 文檔。
BibTeX 引用和引用信息
@misc{https://doi.org/10.48550/arxiv.1912.11370,
doi = {10.48550/ARXIV.1912.11370},
url = {https://arxiv.org/abs/1912.11370},
author = {Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Puigcerver, Joan and Yung, Jessica and Gelly, Sylvain and Houlsby, Neil},
keywords = {Computer Vision and Pattern Recognition (cs.CV), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Big Transfer (BiT): General Visual Representation Learning},
publisher = {arXiv},
year = {2019},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 許可證
本項目採用 Apache - 2.0 許可證。
屬性 |
詳情 |
模型類型 |
用於圖像分類的視覺模型 |
訓練數據 |
ImageNet - 1k 數據集 |