🚀 LSNet:見大察微
LSNet是受人類視覺系統動態異尺度能力啟發而設計的輕量級視覺模型家族,即“見大察微”。該模型在各類視覺任務中實現了最先進的性能與效率平衡。
🚀 快速開始
環境準備
推薦使用conda
虛擬環境:
conda create -n lsnet python=3.8
pip install -r requirements.txt
數據準備
從 http://image-net.org/ 下載並解壓 ImageNet 的訓練集和驗證集圖像。訓練數據和驗證數據應分別存放在 train
文件夾和 val
文件夾中:
|-- /path/to/imagenet/
|-- train
|-- val
訓練模型
在 8 塊 GPU 的機器上訓練 LSNet-T:
python -m torch.distributed.launch --nproc_per_node=8 --master_port 12345 --use_env main.py --model lsnet_t --data-path ~/imagenet --dist-eval
測試模型
python main.py --eval --model lsnet_t --resume ./pretrain/lsnet_t.pth --data-path ~/imagenet
也可以從 🤗 自動下載模型:
import timm
model = timm.create_model(
f'hf_hub:jameslahm/lsnet_{t/t_distill/s/s_distill/b/b_distill}',
pretrained=True
)
✨ 主要特性
- 受人類視覺系統動態異尺度能力啟發,提出“見大察微”策略。
- 引入 LS(大 - 小)卷積,結合大核感知和小核聚合,能有效捕捉廣泛的感知信息並實現精確的特徵聚合。
- 在各類視覺任務中實現了性能與效率的平衡。
💻 使用示例
基礎用法
import timm
import torch
from PIL import Image
import requests
from timm.data import resolve_data_config, create_transform
model = timm.create_model(
'hf_hub:jameslahm/lsnet_b',
pretrained=True
)
model.eval()
url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
img = Image.open(requests.get(url, stream=True).raw)
config = resolve_data_config({}, model=model)
transform = create_transform(**config)
input_tensor = transform(img).unsqueeze(0)
with torch.no_grad():
output = model(input_tensor)
probabilities = torch.nn.functional.softmax(output[0], dim=0)
top5_prob, top5_catid = torch.topk(probabilities, 5)
📚 詳細文檔
論文鏈接
LSNet: See Large, Focus Small
代碼倉庫
https://github.com/jameslahm/lsnet
分類任務(ImageNet-1K)
模型指標
- * 表示使用蒸餾的結果。
- 吞吐量在 Nvidia RTX3090 上使用 speed.py 進行測試。
模型 |
前 1 準確率 |
參數數量 |
浮點運算次數 |
吞吐量 |
模型權重 |
日誌文件 |
LSNet-T |
74.9 / 76.1* |
11.4M |
0.3G |
14708 |
T / T* |
T / T* |
LSNet-S |
77.8 / 79.0* |
16.1M |
0.5G |
9023 |
S / S* |
S / S* |
LSNet-B |
80.3 / 81.6* |
23.2M |
1.3G |
3996 |
B / B* |
B / B* |
下游任務
🔧 技術細節
視覺網絡設計,包括卷積神經網絡和視覺變換器,極大地推動了計算機視覺領域的發展。然而,它們複雜的計算給實際部署帶來了挑戰,特別是在即時應用中。為了解決這個問題,研究人員探索了各種輕量級和高效的網絡設計。然而,現有的輕量級模型主要利用自注意力機制和卷積進行令牌混合。這種依賴在輕量級網絡的感知和聚合過程中帶來了有效性和效率的限制,阻礙了在有限計算預算下性能和效率之間的平衡。
在本文中,我們從高效的人類視覺系統固有的動態異尺度視覺能力中獲得靈感,提出了一種用於輕量級視覺網絡設計的“見大察微”策略。我們引入了 LS(大 - 小)卷積,它結合了大核感知和小核聚合。它可以有效地捕捉廣泛的感知信息,併為動態和複雜的視覺表示實現精確的特徵聚合,從而實現對視覺信息的高效處理。基於 LS 卷積,我們提出了 LSNet,一個新的輕量級模型家族。大量實驗表明,LSNet 在各種視覺任務中比現有的輕量級網絡具有更優越的性能和效率。
📄 許可證
本項目採用 MIT 許可證。
📚 引用
如果我們的代碼或模型對您的工作有幫助,請引用我們的論文:
@misc{wang2025lsnetlargefocussmall,
title={LSNet: See Large, Focus Small},
author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
year={2025},
eprint={2503.23135},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.23135},
}
🙏 致謝
圖像分類(ImageNet)代碼部分基於 EfficientViT、LeViT、PoolFormer 和 EfficientFormer 構建。
目標檢測和分割管道來自 MMCV(MMDetection 和 MMSegmentation)。
感謝這些優秀的實現!