🚀 EfficientFormer-L1
EfficientFormer-L1 是 Snap Research 开发的一款模型,属于 EfficientFormer 系列。该系列模型证明了经过合理设计的 Transformer 模型,能在移动设备上实现极低延迟的同时保持高性能。本模型可用于图像分类和语义分割等任务。
🚀 快速开始
使用以下代码开始使用该模型:
import requests
import torch
from PIL import Image
from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "huggingface/efficientformer-l1-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")
✨ 主要特性
- 高性能低延迟:在移动设备上能实现极低的延迟,同时保持较高的性能。
- 多任务支持:可用于图像分类和语义分割任务。
📚 详细文档
模型详情
EfficientFormer-L1 由 Snap Research 开发,是三个 EfficientFormer 模型之一。EfficientFormer 系列模型的推出,旨在证明经过合理设计的 Transformer 模型,能在移动设备上实现极低延迟的同时保持高性能。
此 EfficientFormer-L1 检查点经过了 1000 个训练周期的训练。
- 开发者:Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
- 语言:英语
- 许可证:该模型遵循 Apache-2.0 许可证
- 更多信息资源:
用途
直接使用
该模型可用于图像分类和语义分割。在移动设备(该模型在 iPhone 12 上进行了测试)上,CoreML 检查点可以低延迟地执行这些任务。
局限性和偏差
尽管 EfficientFormer 中的大多数设计是通用的,例如维度一致设计和带有 CONV - BN 融合的 4D 块,但 EfficientFormer 在其他平台上的实际速度可能会有所不同。例如,如果特定硬件和编译器对 GeLU 支持不佳,而对 HardSwish 实现高效,则可能需要相应地修改操作符。所提出的延迟驱动瘦身方法简单快速。但是,如果不考虑搜索成本并进行基于枚举的暴力搜索,可能会获得更好的结果。
由于该模型是在 ImageNet - 1K 上训练的,该数据集中嵌入的偏差 将反映在 EfficientFormer 模型中。
训练
训练数据
该模型在 ImageNet - 1K 上进行训练。
更多信息请参阅 数据卡片。
训练过程
- 参数:1230 万
- GMACs:1.3
- 训练周期:1000
在配备 NVIDIA A100 和 V100 GPU 的集群上进行训练。
评估结果
在 ImageNet 10K 上的 Top - 1 准确率为 80.2%。
引用信息
@article{li2022efficientformer,
title={EfficientFormer: Vision Transformers at MobileNet Speed},
author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
journal={arXiv preprint arXiv:2206.01191},
year={2022}
}
📄 许可证
该模型遵循 Apache - 2.0 许可证。