🚀 EfficientFormer-L1
EfficientFormer-L1 是 Snap Research 開發的一款模型,屬於 EfficientFormer 系列。該系列模型證明了經過合理設計的 Transformer 模型,能在移動設備上實現極低延遲的同時保持高性能。本模型可用於圖像分類和語義分割等任務。
🚀 快速開始
使用以下代碼開始使用該模型:
import requests
import torch
from PIL import Image
from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "huggingface/efficientformer-l1-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")
✨ 主要特性
- 高性能低延遲:在移動設備上能實現極低的延遲,同時保持較高的性能。
- 多任務支持:可用於圖像分類和語義分割任務。
📚 詳細文檔
模型詳情
EfficientFormer-L1 由 Snap Research 開發,是三個 EfficientFormer 模型之一。EfficientFormer 系列模型的推出,旨在證明經過合理設計的 Transformer 模型,能在移動設備上實現極低延遲的同時保持高性能。
此 EfficientFormer-L1 檢查點經過了 1000 個訓練週期的訓練。
- 開發者:Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
- 語言:英語
- 許可證:該模型遵循 Apache-2.0 許可證
- 更多信息資源:
用途
直接使用
該模型可用於圖像分類和語義分割。在移動設備(該模型在 iPhone 12 上進行了測試)上,CoreML 檢查點可以低延遲地執行這些任務。
侷限性和偏差
儘管 EfficientFormer 中的大多數設計是通用的,例如維度一致設計和帶有 CONV - BN 融合的 4D 塊,但 EfficientFormer 在其他平臺上的實際速度可能會有所不同。例如,如果特定硬件和編譯器對 GeLU 支持不佳,而對 HardSwish 實現高效,則可能需要相應地修改操作符。所提出的延遲驅動瘦身方法簡單快速。但是,如果不考慮搜索成本並進行基於枚舉的暴力搜索,可能會獲得更好的結果。
由於該模型是在 ImageNet - 1K 上訓練的,該數據集中嵌入的偏差 將反映在 EfficientFormer 模型中。
訓練
訓練數據
該模型在 ImageNet - 1K 上進行訓練。
更多信息請參閱 數據卡片。
訓練過程
- 參數:1230 萬
- GMACs:1.3
- 訓練週期:1000
在配備 NVIDIA A100 和 V100 GPU 的集群上進行訓練。
評估結果
在 ImageNet 10K 上的 Top - 1 準確率為 80.2%。
引用信息
@article{li2022efficientformer,
title={EfficientFormer: Vision Transformers at MobileNet Speed},
author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
journal={arXiv preprint arXiv:2206.01191},
year={2022}
}
📄 許可證
該模型遵循 Apache - 2.0 許可證。