🚀 EfficientFormer-L1
EfficientFormer-L1是Snap Research開發的圖像分類模型,旨在讓Transformer在移動設備上實現低延遲與高性能。它可用於圖像分類和語義分割任務,在移動設備上表現出色。
🚀 快速開始
使用以下代碼開始使用該模型:
import requests
import torch
from PIL import Image
from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")
✨ 主要特性
- 高效性能:在移動設備上實現極低的延遲,同時保持較高的圖像分類和語義分割性能。
- 多用途:可直接用於圖像分類和語義分割任務。
📚 詳細文檔
模型詳情
EfficientFormer-L3由Snap Research開發,是三個EfficientFormer模型之一。EfficientFormer模型的推出,證明了經過合理設計的Transformer可以在移動設備上實現極低的延遲,同時保持高性能。
此EfficientFormer-L3檢查點經過300個epoch的訓練。
- 開發者:Yanyu Li、Geng Yuan、Yang Wen、Eric Hu、Georgios Evangelidis、Sergey Tulyakov、Yanzhi Wang、Jian Ren
- 語言:英文
- 許可證:該模型採用Apache-2.0許可證
- 更多信息資源:
用途
直接使用
該模型可用於圖像分類和語義分割。在移動設備(該模型在iPhone 12上進行了測試)上,CoreML檢查點可以低延遲地執行這些任務。
侷限性和偏差
儘管EfficientFormer的大多數設計都是通用的,例如維度一致設計和帶有CONV - BN融合的4D塊,但EfficientFormer在其他平臺上的實際速度可能會有所不同。例如,如果特定硬件和編譯器對GeLU支持不佳,而對HardSwish實現高效,則可能需要相應地修改操作符。所提出的延遲驅動瘦身方法簡單快速。但是,如果不考慮搜索成本並進行基於枚舉的暴力搜索,則可能會獲得更好的結果。
由於該模型是在ImageNet - 1K上訓練的,該數據集中嵌入的偏差將反映在EfficientFormer模型中。
訓練
訓練數據
該模型在ImageNet - 1K上進行訓練。
有關更多信息,請參閱數據卡片。
訓練過程
在配備NVIDIA A100和V100 GPU的集群上進行訓練。
評估結果
- Top - 1準確率:在ImageNet 10K上達到82.4%
- 延遲:3.0ms
環境影響
文檔未提及相關內容。
引用信息
@article{li2022efficientformer,
title={EfficientFormer: Vision Transformers at MobileNet Speed},
author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
journal={arXiv preprint arXiv:2206.01191},
year={2022}
}
📄 許可證
該模型採用Apache - 2.0許可證。