🚀 EfficientFormer-L1
EfficientFormer-L1は、Snap Researchによって開発された画像分類モデルです。このモデルは、モバイルデバイスでの低レイテンシと高い性能を両立することを目指しています。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
基本的な使用法
import requests
import torch
from PIL import Image
from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")
✨ 主な機能
このモデルは、画像分類とセマンティックセグメンテーションに使用できます。モバイルデバイス(iPhone 12でテスト)では、CoreMLチェックポイントが低レイテンシでこれらのタスクを実行します。
📚 ドキュメント
モデルの詳細
EfficientFormer-L3は、Snap Researchによって開発された3つのEfficientFormerモデルの1つです。EfficientFormerモデルは、適切に設計されたトランスフォーマーが、高性能を維持しながらモバイルデバイスで極めて低いレイテンシを達成できることを証明するためにリリースされました。
このEfficientFormer-L3のチェックポイントは、300エポックで学習されました。
- 開発者: Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
- 言語: 英語
- ライセンス: このモデルは、apache-2.0ライセンスの下でライセンスされています
- 詳細情報のリソース:
属性 |
详情 |
モデルタイプ |
EfficientFormer-L3 |
学習データ |
ImageNet-1K |
学習
学習データ
このモデルは、ImageNet-1Kで学習されました。
詳細情報は、データカードを参照してください。
学習手順
- パラメータ: 31.4 M
- 学習エポック数: 300
NVIDIA A100とV100 GPUを備えたクラスタで学習されました。
評価結果
Top-1精度: ImageNet 10Kで82.4%
レイテンシ: 3.0ms
引用情報
@article{li2022efficientformer,
title={EfficientFormer: Vision Transformers at MobileNet Speed},
author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
journal={arXiv preprint arXiv:2206.01191},
year={2022}
}
🔧 技術詳細
EfficientFormerのほとんどの設計は汎用的です。たとえば、次元一致設計とCONV-BN融合を備えた4Dブロックです。しかし、EfficientFormerの実際の速度は、他のプラットフォームでは異なる場合があります。たとえば、特定のハードウェアとコンパイラでGeLUがサポートされていないが、HardSwishが効率的に実装されている場合、演算子を適宜変更する必要があるかもしれません。提案されたレイテンシ駆動型スリミングは簡単で高速です。ただし、探索コストを考慮せず、列挙ベースのブルートサーチを行うと、より良い結果が得られるかもしれません。
このモデルはImageNet-1Kで学習されているため、そのデータセットに埋め込まれたバイアスがEfficientFormerモデルに反映されます。
📄 ライセンス
このモデルは、apache-2.0ライセンスの下でライセンスされています。