EfficientFormer-L1-300开源视觉模型 - 免费部署，为移动设备带来低延迟高性能体验

首页

Efficientformer L1 300

由 snap-research 开发

EfficientFormer-L1是由Snap Research开发的视觉Transformer模型，专为移动设备优化，在保持高性能的同时实现极低延迟。

图像分类英语开源协议:Apache-2.0 #移动设备低延迟 #图像分类 #视觉Transformer

下载量 513

发布时间 : 12/28/2022

模型简介

该模型主要用于图像分类任务，经过优化可在移动设备上高效运行，特别适合资源受限环境下的视觉应用。

模型特点

移动设备优化

专为移动设备设计，在iPhone 12等设备上可实现低延迟运行

高效架构

采用维度一致的设计和4D块结构，优化了计算效率

高性能

在ImageNet-1K上达到80.2%的Top-1准确率

模型能力

图像分类

语义分割

使用案例

计算机视觉

移动端图像分类

在智能手机等移动设备上实现高效的图像分类

在iPhone 12上实现低延迟运行

智能相册管理

自动分类相册中的照片内容

🚀 EfficientFormer-L1

EfficientFormer-L1 是 Snap Research 开发的一款模型，属于 EfficientFormer 系列。该系列模型证明了经过合理设计的 Transformer 模型，能在移动设备上实现极低延迟的同时保持高性能。本模型可用于图像分类和语义分割等任务。

🚀 快速开始

使用以下代码开始使用该模型：

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l1-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主要特性

高性能低延迟：在移动设备上能实现极低的延迟，同时保持较高的性能。
多任务支持：可用于图像分类和语义分割任务。

📚 详细文档

模型详情

EfficientFormer-L1 由 Snap Research 开发，是三个 EfficientFormer 模型之一。EfficientFormer 系列模型的推出，旨在证明经过合理设计的 Transformer 模型，能在移动设备上实现极低延迟的同时保持高性能。

此 EfficientFormer-L1 检查点经过了 1000 个训练周期的训练。

开发者：Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
语言：英语
许可证：该模型遵循 Apache-2.0 许可证
更多信息资源：
- 研究论文
- GitHub 仓库

用途

直接使用

该模型可用于图像分类和语义分割。在移动设备（该模型在 iPhone 12 上进行了测试）上，CoreML 检查点可以低延迟地执行这些任务。

局限性和偏差

尽管 EfficientFormer 中的大多数设计是通用的，例如维度一致设计和带有 CONV - BN 融合的 4D 块，但 EfficientFormer 在其他平台上的实际速度可能会有所不同。例如，如果特定硬件和编译器对 GeLU 支持不佳，而对 HardSwish 实现高效，则可能需要相应地修改操作符。所提出的延迟驱动瘦身方法简单快速。但是，如果不考虑搜索成本并进行基于枚举的暴力搜索，可能会获得更好的结果。

由于该模型是在 ImageNet - 1K 上训练的，该数据集中嵌入的偏差将反映在 EfficientFormer 模型中。

训练

训练数据

该模型在 ImageNet - 1K 上进行训练。更多信息请参阅数据卡片。

训练过程

参数：1230 万
GMACs：1.3
训练周期：1000

在配备 NVIDIA A100 和 V100 GPU 的集群上进行训练。

评估结果

在 ImageNet 10K 上的 Top - 1 准确率为 80.2%。

引用信息

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}