🚀 EfficientFormer-L1
EfficientFormer-L1是Snap Research开发的图像分类模型,旨在让Transformer在移动设备上实现低延迟与高性能。它可用于图像分类和语义分割任务,在移动设备上表现出色。
🚀 快速开始
使用以下代码开始使用该模型:
import requests
import torch
from PIL import Image
from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")
✨ 主要特性
- 高效性能:在移动设备上实现极低的延迟,同时保持较高的图像分类和语义分割性能。
- 多用途:可直接用于图像分类和语义分割任务。
📚 详细文档
模型详情
EfficientFormer-L3由Snap Research开发,是三个EfficientFormer模型之一。EfficientFormer模型的推出,证明了经过合理设计的Transformer可以在移动设备上实现极低的延迟,同时保持高性能。
此EfficientFormer-L3检查点经过300个epoch的训练。
- 开发者:Yanyu Li、Geng Yuan、Yang Wen、Eric Hu、Georgios Evangelidis、Sergey Tulyakov、Yanzhi Wang、Jian Ren
- 语言:英文
- 许可证:该模型采用Apache-2.0许可证
- 更多信息资源:
用途
直接使用
该模型可用于图像分类和语义分割。在移动设备(该模型在iPhone 12上进行了测试)上,CoreML检查点可以低延迟地执行这些任务。
局限性和偏差
尽管EfficientFormer的大多数设计都是通用的,例如维度一致设计和带有CONV - BN融合的4D块,但EfficientFormer在其他平台上的实际速度可能会有所不同。例如,如果特定硬件和编译器对GeLU支持不佳,而对HardSwish实现高效,则可能需要相应地修改操作符。所提出的延迟驱动瘦身方法简单快速。但是,如果不考虑搜索成本并进行基于枚举的暴力搜索,则可能会获得更好的结果。
由于该模型是在ImageNet - 1K上训练的,该数据集中嵌入的偏差将反映在EfficientFormer模型中。
训练
训练数据
该模型在ImageNet - 1K上进行训练。
有关更多信息,请参阅数据卡片。
训练过程
在配备NVIDIA A100和V100 GPU的集群上进行训练。
评估结果
- Top - 1准确率:在ImageNet 10K上达到82.4%
- 延迟:3.0ms
环境影响
文档未提及相关内容。
引用信息
@article{li2022efficientformer,
title={EfficientFormer: Vision Transformers at MobileNet Speed},
author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
journal={arXiv preprint arXiv:2206.01191},
year={2022}
}
📄 许可证
该模型采用Apache - 2.0许可证。