LSNet_B开源视觉模型 - 兼顾性能与效率，适用于多种视觉任务

首页

Lsnet B

由 jameslahm 开发

LSNet是一个受人类视觉系统动态异尺度能力启发的轻量级视觉模型家族，在多种视觉任务中实现了性能与效率的平衡。

图像分类开源协议:MIT #轻量级视觉模型 #动态异尺度处理 #高效图像分类

下载量 186

发布时间 : 4/1/2025

模型简介

LSNet是一种新型轻量级视觉模型，通过结合大核感知和小核聚合的策略，高效捕捉广泛感知信息并实现精确特征聚合。

模型特点

动态异尺度视觉能力

模仿人类视觉系统的'见大聚焦小'能力，同时处理大范围感知和精细特征聚合

高效性能平衡

在轻量级网络中实现了优于现有模型的性能和效率平衡

LS卷积设计

创新性地结合大核感知和小核聚合，实现高效视觉信息处理

模型能力

图像分类

目标检测

实例分割

语义分割

使用案例

计算机视觉

实时图像分类

在资源受限设备上实现高效的图像分类

在ImageNet-1K上达到80.3% Top-1准确率（LSNet-B）

移动端视觉应用

适用于需要高效视觉处理的移动应用场景

在Nvidia RTX3090上达到3996吞吐量（LSNet-B）

🚀 LSNet：见大察微

LSNet是受人类视觉系统动态异尺度能力启发而设计的轻量级视觉模型家族，即“见大察微”。该模型在各类视觉任务中实现了最先进的性能与效率平衡。

🚀 快速开始

环境准备

推荐使用conda虚拟环境：

conda create -n lsnet python=3.8
pip install -r requirements.txt

数据准备

从 http://image-net.org/ 下载并解压 ImageNet 的训练集和验证集图像。训练数据和验证数据应分别存放在 train 文件夹和 val 文件夹中：

|-- /path/to/imagenet/
    |-- train
    |-- val

训练模型

在 8 块 GPU 的机器上训练 LSNet-T：

python -m torch.distributed.launch --nproc_per_node=8 --master_port 12345 --use_env main.py --model lsnet_t --data-path ~/imagenet --dist-eval
# 若要使用蒸馏训练，请添加 `--distillation-type hard`
# 若训练 LSNet-B，请添加 `--weight-decay 0.05`

测试模型

python main.py --eval --model lsnet_t --resume ./pretrain/lsnet_t.pth --data-path ~/imagenet

也可以从 🤗 自动下载模型：

import timm

model = timm.create_model(
    f'hf_hub:jameslahm/lsnet_{t/t_distill/s/s_distill/b/b_distill}',
    pretrained=True
)

✨ 主要特性

受人类视觉系统动态异尺度能力启发，提出“见大察微”策略。
引入 LS（大 - 小）卷积，结合大核感知和小核聚合，能有效捕捉广泛的感知信息并实现精确的特征聚合。
在各类视觉任务中实现了性能与效率的平衡。

💻 使用示例

基础用法

import timm
import torch
from PIL import Image
import requests
from timm.data import resolve_data_config, create_transform

# 加载模型
model = timm.create_model(
    'hf_hub:jameslahm/lsnet_b',
    pretrained=True
)
model.eval()

# 加载并转换图像
# 使用 URL 的示例：
url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
img = Image.open(requests.get(url, stream=True).raw)

config = resolve_data_config({}, model=model)
transform = create_transform(**config)
input_tensor = transform(img).unsqueeze(0) # 转换并添加批次维度

# 进行预测
with torch.no_grad():
    output = model(input_tensor)
probabilities = torch.nn.functional.softmax(output[0], dim=0)

# 获取前 5 个预测结果
top5_prob, top5_catid = torch.topk(probabilities, 5)
# 假设你有 ImageNet 标签列表 'imagenet_labels'
# for i in range(top5_prob.size(0)):
#     print(imagenet_labels[top5_catid[i]], top5_prob[i].item())

📚 详细文档

论文链接

LSNet: See Large, Focus Small

代码仓库

https://github.com/jameslahm/lsnet

分类任务（ImageNet-1K）

模型指标

* 表示使用蒸馏的结果。
吞吐量在 Nvidia RTX3090 上使用 speed.py 进行测试。

模型	前 1 准确率	参数数量	浮点运算次数	吞吐量	模型权重	日志文件
LSNet-T	74.9 / 76.1*	11.4M	0.3G	14708	T / T*	T / T*
LSNet-S	77.8 / 79.0*	16.1M	0.5G	9023	S / S*	S / S*
LSNet-B	80.3 / 81.6*	23.2M	1.3G	3996	B / B*	B / B*

下游任务

🔧 技术细节

视觉网络设计，包括卷积神经网络和视觉变换器，极大地推动了计算机视觉领域的发展。然而，它们复杂的计算给实际部署带来了挑战，特别是在实时应用中。为了解决这个问题，研究人员探索了各种轻量级和高效的网络设计。然而，现有的轻量级模型主要利用自注意力机制和卷积进行令牌混合。这种依赖在轻量级网络的感知和聚合过程中带来了有效性和效率的限制，阻碍了在有限计算预算下性能和效率之间的平衡。

在本文中，我们从高效的人类视觉系统固有的动态异尺度视觉能力中获得灵感，提出了一种用于轻量级视觉网络设计的“见大察微”策略。我们引入了 LS（大 - 小）卷积，它结合了大核感知和小核聚合。它可以有效地捕捉广泛的感知信息，并为动态和复杂的视觉表示实现精确的特征聚合，从而实现对视觉信息的高效处理。基于 LS 卷积，我们提出了 LSNet，一个新的轻量级模型家族。大量实验表明，LSNet 在各种视觉任务中比现有的轻量级网络具有更优越的性能和效率。

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果我们的代码或模型对您的工作有帮助，请引用我们的论文：

@misc{wang2025lsnetlargefocussmall,
      title={LSNet: See Large, Focus Small}, 
      author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.23135},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.23135}, 
}