🚀 Big Transfer (BiT)
BiTモデルは、Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil HoulsbyによるBig Transfer (BiT): General Visual Representation Learningで提案されました。BiTは、ResNetのようなアーキテクチャ(具体的にはResNetv2)の事前学習を拡張するためのシンプルな方法です。この方法により、転移学習の性能が大幅に向上します。
なお、ResNetを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
このセクションでは、BiTモデルの概要と使用方法を紹介します。BiTは画像分類タスクに適用できるモデルで、事前学習を拡張することで転移学習の性能を向上させます。
✨ 主な機能
- 大規模な教師付きデータセットでの事前学習を拡張し、転移学習の性能を向上させます。
- 20以上のデータセットで強力な性能を発揮します。
- 様々なデータレジーム(クラスごとに1つの例から合計100万の例まで)で良好な性能を示します。
📚 ドキュメント
モデルの説明
論文からの要約は以下の通りです。
事前学習された表現の転移は、ビジョンのための深層ニューラルネットワークをトレーニングする際に、サンプル効率を向上させ、ハイパーパラメータのチューニングを簡素化します。我々は、大規模な教師付きデータセットでの事前学習と、ターゲットタスクでのモデルの微調整というパラダイムを見直しました。我々は事前学習を拡張し、Big Transfer (BiT) と呼ぶシンプルなレシピを提案します。いくつかの慎重に選択されたコンポーネントを組み合わせ、シンプルなヒューリスティックを使用して転移することで、20以上のデータセットで強力な性能を達成します。BiTは、驚くほど幅広いデータレジーム(クラスごとに1つの例から合計100万の例まで)で良好な性能を示します。BiTは、ILSVRC - 2012で87.5%のトップ1精度、CIFAR - 10で99.4%、19のタスクのVisual Task Adaptation Benchmark (VTAB) で76.3%を達成します。小規模なデータセットでは、BiTはクラスごとに10の例でILSVRC - 2012で76.8%、クラスごとに10の例でCIFAR - 10で97.0%を達成します。我々は、高い転移性能につながる主要なコンポーネントの詳細な分析を行います。
想定される用途と制限
この生モデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。
使い方
以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。
from transformers import BitImageProcessor, BitForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
feature_extractor = BitImageProcessor.from_pretrained("google/bit-50")
model = BitForImageClassification.from_pretrained("google/bit-50")
inputs = feature_extractor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
>>> tabby, tabby cat
より多くのコード例については、ドキュメントを参照してください。
BibTeXエントリと引用情報
@misc{https://doi.org/10.48550/arxiv.1912.11370,
doi = {10.48550/ARXIV.1912.11370},
url = {https://arxiv.org/abs/1912.11370},
author = {Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Puigcerver, Joan and Yung, Jessica and Gelly, Sylvain and Houlsby, Neil},
keywords = {Computer Vision and Pattern Recognition (cs.CV), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Big Transfer (BiT): General Visual Representation Learning},
publisher = {arXiv},
year = {2019},
copyright = {arXiv.org perpetual, non-exclusive license}
}
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で公開されています。
属性 |
详情 |
モデルタイプ |
画像分類モデル |
学習データ |
ImageNet - 1k |