LSNet_B開源視覺模型 - 兼顧性能與效率，適用於多種視覺任務

首頁

Lsnet B

由jameslahm開發

LSNet是一個受人類視覺系統動態異尺度能力啟發的輕量級視覺模型家族，在多種視覺任務中實現了性能與效率的平衡。

圖像分類開源協議:MIT #輕量級視覺模型 #動態異尺度處理 #高效圖像分類

下載量 186

發布時間 : 4/1/2025

模型概述

LSNet是一種新型輕量級視覺模型，通過結合大核感知和小核聚合的策略，高效捕捉廣泛感知信息並實現精確特徵聚合。

模型特點

動態異尺度視覺能力

模仿人類視覺系統的'見大聚焦小'能力，同時處理大範圍感知和精細特徵聚合

高效性能平衡

在輕量級網絡中實現了優於現有模型的性能和效率平衡

LS卷積設計

創新性地結合大核感知和小核聚合，實現高效視覺信息處理

模型能力

圖像分類

目標檢測

實例分割

語義分割

使用案例

計算機視覺

即時圖像分類

在資源受限設備上實現高效的圖像分類

在ImageNet-1K上達到80.3% Top-1準確率（LSNet-B）

移動端視覺應用

適用於需要高效視覺處理的移動應用場景

在Nvidia RTX3090上達到3996吞吐量（LSNet-B）

🚀 LSNet：見大察微

LSNet是受人類視覺系統動態異尺度能力啟發而設計的輕量級視覺模型家族，即“見大察微”。該模型在各類視覺任務中實現了最先進的性能與效率平衡。

🚀 快速開始

環境準備

推薦使用conda虛擬環境：

conda create -n lsnet python=3.8
pip install -r requirements.txt

數據準備

從 http://image-net.org/ 下載並解壓 ImageNet 的訓練集和驗證集圖像。訓練數據和驗證數據應分別存放在 train 文件夾和 val 文件夾中：

|-- /path/to/imagenet/
    |-- train
    |-- val

訓練模型

在 8 塊 GPU 的機器上訓練 LSNet-T：

python -m torch.distributed.launch --nproc_per_node=8 --master_port 12345 --use_env main.py --model lsnet_t --data-path ~/imagenet --dist-eval
# 若要使用蒸餾訓練，請添加 `--distillation-type hard`
# 若訓練 LSNet-B，請添加 `--weight-decay 0.05`

測試模型

python main.py --eval --model lsnet_t --resume ./pretrain/lsnet_t.pth --data-path ~/imagenet

也可以從 🤗 自動下載模型：

import timm

model = timm.create_model(
    f'hf_hub:jameslahm/lsnet_{t/t_distill/s/s_distill/b/b_distill}',
    pretrained=True
)

✨ 主要特性

受人類視覺系統動態異尺度能力啟發，提出“見大察微”策略。
引入 LS（大 - 小）卷積，結合大核感知和小核聚合，能有效捕捉廣泛的感知信息並實現精確的特徵聚合。
在各類視覺任務中實現了性能與效率的平衡。

💻 使用示例

基礎用法

import timm
import torch
from PIL import Image
import requests
from timm.data import resolve_data_config, create_transform

# 加載模型
model = timm.create_model(
    'hf_hub:jameslahm/lsnet_b',
    pretrained=True
)
model.eval()

# 加載並轉換圖像
# 使用 URL 的示例：
url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
img = Image.open(requests.get(url, stream=True).raw)

config = resolve_data_config({}, model=model)
transform = create_transform(**config)
input_tensor = transform(img).unsqueeze(0) # 轉換並添加批次維度

# 進行預測
with torch.no_grad():
    output = model(input_tensor)
probabilities = torch.nn.functional.softmax(output[0], dim=0)

# 獲取前 5 個預測結果
top5_prob, top5_catid = torch.topk(probabilities, 5)
# 假設你有 ImageNet 標籤列表 'imagenet_labels'
# for i in range(top5_prob.size(0)):
#     print(imagenet_labels[top5_catid[i]], top5_prob[i].item())

📚 詳細文檔

論文鏈接

LSNet: See Large, Focus Small

代碼倉庫

https://github.com/jameslahm/lsnet

分類任務（ImageNet-1K）

模型指標

* 表示使用蒸餾的結果。
吞吐量在 Nvidia RTX3090 上使用 speed.py 進行測試。

模型	前 1 準確率	參數數量	浮點運算次數	吞吐量	模型權重	日誌文件
LSNet-T	74.9 / 76.1*	11.4M	0.3G	14708	T / T*	T / T*
LSNet-S	77.8 / 79.0*	16.1M	0.5G	9023	S / S*	S / S*
LSNet-B	80.3 / 81.6*	23.2M	1.3G	3996	B / B*	B / B*

下游任務

🔧 技術細節

視覺網絡設計，包括卷積神經網絡和視覺變換器，極大地推動了計算機視覺領域的發展。然而，它們複雜的計算給實際部署帶來了挑戰，特別是在即時應用中。為了解決這個問題，研究人員探索了各種輕量級和高效的網絡設計。然而，現有的輕量級模型主要利用自注意力機制和卷積進行令牌混合。這種依賴在輕量級網絡的感知和聚合過程中帶來了有效性和效率的限制，阻礙了在有限計算預算下性能和效率之間的平衡。

在本文中，我們從高效的人類視覺系統固有的動態異尺度視覺能力中獲得靈感，提出了一種用於輕量級視覺網絡設計的“見大察微”策略。我們引入了 LS（大 - 小）卷積，它結合了大核感知和小核聚合。它可以有效地捕捉廣泛的感知信息，併為動態和複雜的視覺表示實現精確的特徵聚合，從而實現對視覺信息的高效處理。基於 LS 卷積，我們提出了 LSNet，一個新的輕量級模型家族。大量實驗表明，LSNet 在各種視覺任務中比現有的輕量級網絡具有更優越的性能和效率。

📄 許可證

本項目採用 MIT 許可證。

📚 引用

如果我們的代碼或模型對您的工作有幫助，請引用我們的論文：

@misc{wang2025lsnetlargefocussmall,
      title={LSNet: See Large, Focus Small}, 
      author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.23135},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.23135}, 
}