EfficientFormer-L1-300開源視覺模型 - 免費部署，為移動設備帶來低延遲高性能體驗

首頁

Efficientformer L1 300

由snap-research開發

EfficientFormer-L1是由Snap Research開發的視覺Transformer模型，專為移動設備優化，在保持高性能的同時實現極低延遲。

圖像分類英語開源協議:Apache-2.0 #移動設備低延遲 #圖像分類 #視覺Transformer

下載量 513

發布時間 : 12/28/2022

模型概述

該模型主要用於圖像分類任務，經過優化可在移動設備上高效運行，特別適合資源受限環境下的視覺應用。

模型特點

移動設備優化

專為移動設備設計，在iPhone 12等設備上可實現低延遲運行

高效架構

採用維度一致的設計和4D塊結構，優化了計算效率

高性能

在ImageNet-1K上達到80.2%的Top-1準確率

模型能力

圖像分類

語義分割

使用案例

計算機視覺

移動端圖像分類

在智能手機等移動設備上實現高效的圖像分類

在iPhone 12上實現低延遲運行

智能相冊管理

自動分類相冊中的照片內容

🚀 EfficientFormer-L1

EfficientFormer-L1 是 Snap Research 開發的一款模型，屬於 EfficientFormer 系列。該系列模型證明了經過合理設計的 Transformer 模型，能在移動設備上實現極低延遲的同時保持高性能。本模型可用於圖像分類和語義分割等任務。

🚀 快速開始

使用以下代碼開始使用該模型：

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l1-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主要特性

高性能低延遲：在移動設備上能實現極低的延遲，同時保持較高的性能。
多任務支持：可用於圖像分類和語義分割任務。

📚 詳細文檔

模型詳情

EfficientFormer-L1 由 Snap Research 開發，是三個 EfficientFormer 模型之一。EfficientFormer 系列模型的推出，旨在證明經過合理設計的 Transformer 模型，能在移動設備上實現極低延遲的同時保持高性能。

此 EfficientFormer-L1 檢查點經過了 1000 個訓練週期的訓練。

開發者：Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
語言：英語
許可證：該模型遵循 Apache-2.0 許可證
更多信息資源：
- 研究論文
- GitHub 倉庫

用途

直接使用

該模型可用於圖像分類和語義分割。在移動設備（該模型在 iPhone 12 上進行了測試）上，CoreML 檢查點可以低延遲地執行這些任務。

侷限性和偏差

儘管 EfficientFormer 中的大多數設計是通用的，例如維度一致設計和帶有 CONV - BN 融合的 4D 塊，但 EfficientFormer 在其他平臺上的實際速度可能會有所不同。例如，如果特定硬件和編譯器對 GeLU 支持不佳，而對 HardSwish 實現高效，則可能需要相應地修改操作符。所提出的延遲驅動瘦身方法簡單快速。但是，如果不考慮搜索成本並進行基於枚舉的暴力搜索，可能會獲得更好的結果。

由於該模型是在 ImageNet - 1K 上訓練的，該數據集中嵌入的偏差將反映在 EfficientFormer 模型中。

訓練

訓練數據

該模型在 ImageNet - 1K 上進行訓練。更多信息請參閱數據卡片。

訓練過程

參數：1230 萬
GMACs：1.3
訓練週期：1000

在配備 NVIDIA A100 和 V100 GPU 的集群上進行訓練。

評估結果

在 ImageNet 10K 上的 Top - 1 準確率為 80.2%。

引用信息

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}