🚀 ResNet-50 v1.5
解像度224x224のImageNet-1kで事前学習されたResNetモデルです。Heらによる論文Deep Residual Learning for Image Recognitionで紹介されました。
🚀 クイックスタート
ResNet-50 v1.5は、画像分類タスクに使用できる事前学習済みの畳み込みニューラルネットワークです。以下に、このモデルを使用して画像を分類する基本的な手順を示します。
from transformers import AutoImageProcessor, ResNetForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = AutoImageProcessor.from_pretrained("microsoft/resnet-50")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
✨ 主な機能
- ResNetは、残差学習とスキップ接続の概念を広めた畳み込みニューラルネットワークで、より深いモデルの学習を可能にします。
- ResNet v1.5は、元のモデルとは異なり、ボトルネックブロックのダウンサンプリング時に3x3畳み込みでストライド=2を使用するため、ResNet50 v1よりも若干精度が高くなります(トップ1精度で約0.5%)。
📚 ドキュメント
モデルの説明
ResNet(Residual Network)は、残差学習とスキップ接続の概念を広めた畳み込みニューラルネットワークです。これにより、より深いモデルの学習が可能になります。
このモデルはResNet v1.5で、元のモデルとは異なり、ダウンサンプリングが必要なボトルネックブロックでは、v1では最初の1x1畳み込みでストライド=2を使用しますが、v1.5では3x3畳み込みでストライド=2を使用します。この違いにより、ResNet50 v1.5はv1よりも若干精度が高くなります(トップ1精度で約0.5%)が、Nvidiaによると、若干のパフォーマンス低下(約5% imgs/sec)があります。

想定用途と制限事項
このモデルは、画像分類に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。
使い方
COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法を以下に示します。
from transformers import AutoImageProcessor, ResNetForImageClassification
import torch
from datasets import load_dataset
dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]
processor = AutoImageProcessor.from_pretrained("microsoft/resnet-50")
model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50")
inputs = processor(image, return_tensors="pt")
with torch.no_grad():
logits = model(**inputs).logits
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
詳細なコード例については、ドキュメントを参照してください。
BibTeXエントリと引用情報
@inproceedings{he2016deep,
title={Deep residual learning for image recognition},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
pages={770--778},
year={2016}
}
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。