EfficientFormer-L3-300開源視覺模型 - 專為移動設備優化，低延遲高性能

首頁

Efficientformer L3 300

由snap-research開發

EfficientFormer-L3是由Snap Research開發的輕量級視覺Transformer模型，專為移動設備優化，在保持高性能的同時實現低延遲。

圖像分類英語開源協議:Apache-2.0 #移動端優化 #低延遲推理 #圖像分類

下載量 279

發布時間 : 1/7/2023

模型概述

該模型是EfficientFormer系列中的一員，經過合理設計的Transformer架構可在移動設備上實現高效圖像分類任務。

模型特點

移動端優化

專為移動設備設計，在iPhone 12等設備上可實現3毫秒的低延遲推理

高性能

在ImageNet-1K數據集上達到82.4%的Top-1準確率

高效架構

採用維度一致性設計和CONV-BN融合的4D模塊，實現高效推理

模型能力

圖像分類

語義分割

使用案例

計算機視覺

移動端圖像分類

在智能手機等移動設備上即時執行圖像分類任務

在iPhone 12上實現3毫秒低延遲

智能相冊管理

自動分類相冊中的照片內容

🚀 EfficientFormer-L1

EfficientFormer-L1是Snap Research開發的圖像分類模型，旨在讓Transformer在移動設備上實現低延遲與高性能。它可用於圖像分類和語義分割任務，在移動設備上表現出色。

🚀 快速開始

使用以下代碼開始使用該模型：

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主要特性

高效性能：在移動設備上實現極低的延遲，同時保持較高的圖像分類和語義分割性能。
多用途：可直接用於圖像分類和語義分割任務。

📚 詳細文檔

模型詳情

EfficientFormer-L3由Snap Research開發，是三個EfficientFormer模型之一。EfficientFormer模型的推出，證明了經過合理設計的Transformer可以在移動設備上實現極低的延遲，同時保持高性能。

此EfficientFormer-L3檢查點經過300個epoch的訓練。

開發者：Yanyu Li、Geng Yuan、Yang Wen、Eric Hu、Georgios Evangelidis、Sergey Tulyakov、Yanzhi Wang、Jian Ren
語言：英文
許可證：該模型採用Apache-2.0許可證
更多信息資源：
- 研究論文
- GitHub倉庫

用途

直接使用

該模型可用於圖像分類和語義分割。在移動設備（該模型在iPhone 12上進行了測試）上，CoreML檢查點可以低延遲地執行這些任務。

侷限性和偏差

儘管EfficientFormer的大多數設計都是通用的，例如維度一致設計和帶有CONV - BN融合的4D塊，但EfficientFormer在其他平臺上的實際速度可能會有所不同。例如，如果特定硬件和編譯器對GeLU支持不佳，而對HardSwish實現高效，則可能需要相應地修改操作符。所提出的延遲驅動瘦身方法簡單快速。但是，如果不考慮搜索成本並進行基於枚舉的暴力搜索，則可能會獲得更好的結果。

由於該模型是在ImageNet - 1K上訓練的，該數據集中嵌入的偏差將反映在EfficientFormer模型中。

訓練

訓練數據

該模型在ImageNet - 1K上進行訓練。

有關更多信息，請參閱數據卡片。

訓練過程

參數：3140萬
訓練輪數：300

在配備NVIDIA A100和V100 GPU的集群上進行訓練。

評估結果

Top - 1準確率：在ImageNet 10K上達到82.4%
延遲：3.0ms

環境影響

文檔未提及相關內容。

引用信息

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}