EfficientFormer-L3-300开源视觉模型 - 专为移动设备优化，低延迟高性能

首页

Efficientformer L3 300

由 snap-research 开发

EfficientFormer-L3是由Snap Research开发的轻量级视觉Transformer模型，专为移动设备优化，在保持高性能的同时实现低延迟。

图像分类英语开源协议:Apache-2.0 #移动端优化 #低延迟推理 #图像分类

下载量 279

发布时间 : 1/7/2023

模型简介

该模型是EfficientFormer系列中的一员，经过合理设计的Transformer架构可在移动设备上实现高效图像分类任务。

模型特点

移动端优化

专为移动设备设计，在iPhone 12等设备上可实现3毫秒的低延迟推理

高性能

在ImageNet-1K数据集上达到82.4%的Top-1准确率

高效架构

采用维度一致性设计和CONV-BN融合的4D模块，实现高效推理

模型能力

图像分类

语义分割

使用案例

计算机视觉

移动端图像分类

在智能手机等移动设备上实时执行图像分类任务

在iPhone 12上实现3毫秒低延迟

智能相册管理

自动分类相册中的照片内容

🚀 EfficientFormer-L1

EfficientFormer-L1是Snap Research开发的图像分类模型，旨在让Transformer在移动设备上实现低延迟与高性能。它可用于图像分类和语义分割任务，在移动设备上表现出色。

🚀 快速开始

使用以下代码开始使用该模型：

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主要特性

高效性能：在移动设备上实现极低的延迟，同时保持较高的图像分类和语义分割性能。
多用途：可直接用于图像分类和语义分割任务。

📚 详细文档

模型详情

EfficientFormer-L3由Snap Research开发，是三个EfficientFormer模型之一。EfficientFormer模型的推出，证明了经过合理设计的Transformer可以在移动设备上实现极低的延迟，同时保持高性能。

此EfficientFormer-L3检查点经过300个epoch的训练。

开发者：Yanyu Li、Geng Yuan、Yang Wen、Eric Hu、Georgios Evangelidis、Sergey Tulyakov、Yanzhi Wang、Jian Ren
语言：英文
许可证：该模型采用Apache-2.0许可证
更多信息资源：
- 研究论文
- GitHub仓库

用途

直接使用

该模型可用于图像分类和语义分割。在移动设备（该模型在iPhone 12上进行了测试）上，CoreML检查点可以低延迟地执行这些任务。

局限性和偏差

尽管EfficientFormer的大多数设计都是通用的，例如维度一致设计和带有CONV - BN融合的4D块，但EfficientFormer在其他平台上的实际速度可能会有所不同。例如，如果特定硬件和编译器对GeLU支持不佳，而对HardSwish实现高效，则可能需要相应地修改操作符。所提出的延迟驱动瘦身方法简单快速。但是，如果不考虑搜索成本并进行基于枚举的暴力搜索，则可能会获得更好的结果。

由于该模型是在ImageNet - 1K上训练的，该数据集中嵌入的偏差将反映在EfficientFormer模型中。

训练

训练数据

该模型在ImageNet - 1K上进行训练。

有关更多信息，请参阅数据卡片。

训练过程

参数：3140万
训练轮数：300

在配备NVIDIA A100和V100 GPU的集群上进行训练。

评估结果

Top - 1准确率：在ImageNet 10K上达到82.4%
延迟：3.0ms

环境影响

文档未提及相关内容。

引用信息

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}