SlimSAM-uniform-77開源模型 - 高效複用預訓練SAM，無需大量重複訓練

首頁

Slimsam Uniform 77

由Zigeng開發

SlimSAM是一種創新的SAM模型壓縮方法，通過統一剪枝-蒸餾框架高效複用預訓練SAM，無需大量重複訓練。

圖像分割

Transformers

其他開源協議:Apache-2.0 #輕量化分割 #低數據依賴 #剪枝蒸餾

下載量 18.82k

發布時間 : 1/8/2024

模型概述

SlimSAM是一種分割萬物模型(SAM)的輕量化版本，通過創新的剪枝-蒸餾框架實現模型壓縮，顯著減少參數量和運算量，同時保持接近原始模型的性能。

模型特點

高效壓縮

僅需0.1%訓練數據即可實現模型壓縮，參數量降至0.9%，運算量降至0.8%

交替瘦身策略

通過漸進式剪枝與蒸餾步驟，增強原始SAM的知識傳承

無標籤剪枝準則

剪枝目標與優化方向對齊，提升剪枝後蒸餾效果

模型能力

圖像分割

目標識別

語義分割

使用案例

計算機視覺

物體分割

對圖像中的特定物體進行精確分割

在少量訓練數據下保持接近原始SAM的分割精度

輕量化部署

在資源受限設備上部署圖像分割模型

顯著減少模型大小和計算需求

🚀 SlimSAM: 0.1% 數據讓任意分割模型瘦身

SlimSAM 是一種新穎的 SAM 壓縮方法，通過高效複用預訓練的 SAM 模型，無需大量重新訓練，就能在減少模型參數和計算量的同時，保持接近原模型的性能。該方法使用統一的剪枝 - 蒸餾框架，結合交替瘦身策略和無標籤剪枝準則，實現了高效的模型壓縮。

🚀 快速開始

本地統一剪枝 SlimSAM - 50 模型的快速狀態字典加載

model = SamModel.from_pretrained("Zigeng/SlimSAM-uniform-77").to("cuda")
processor = SamProcessor.from_pretrained("Zigeng/SlimSAM-uniform-77")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]] # 窗口的二維定位
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")
outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

✨ 主要特性

高效複用預訓練模型：通過統一的剪枝 - 蒸餾框架，高效複用預訓練的 SAM 模型，無需大量重新訓練。
交替瘦身策略：採用創新的交替瘦身策略，將壓縮過程劃分為漸進式步驟，增強從原始 SAM 繼承的知識。
無標籤剪枝準則：提出了一種新穎的無標籤剪枝準則，使剪枝目標與優化目標一致，提高剪枝後的蒸餾效果。
顯著的壓縮效果：與原始 SAM - H 相比，SlimSAM 將參數數量減少到 0.9%（570 萬），MACs 減少到 0.8%（21G），僅需 0.1%（10k）的訓練數據，同時實現接近的性能。
數據高效性：與其他 SAM 壓縮方法相比，在使用少 10 倍以上訓練數據的情況下，實現了顯著的優越性能。

📚 詳細文檔

簡介

SlimSAM 是一種新穎的 SAM 壓縮方法，它通過統一的剪枝 - 蒸餾框架，高效地複用預訓練的 SAM 模型，而無需進行大量的重新訓練。為了增強從原始 SAM 繼承的知識，我們採用了一種創新的交替瘦身策略，將壓縮過程劃分為漸進式步驟。與以往的剪枝技術不同，我們精心地以交替方式對解耦的模型結構進行剪枝和蒸餾。此外，還提出了一種新穎的無標籤剪枝準則，使剪枝目標與優化目標一致，從而提高剪枝後的蒸餾效果。

SlimSAM 在減少參數數量到 0.9%（570 萬）、MACs 到 0.8%（21G） 的同時，僅需 0.1%（10k） 的訓練數據，就能實現接近原始 SAM - H 的性能。大量實驗表明，與其他 SAM 壓縮方法相比，我們的方法在使用少 10 倍以上 訓練數據的情況下，實現了顯著的優越性能。

作者信息

0.1% Data Makes Segment Anything Slim
陳梓耕，方鞏凡，馬心印，王新潮
[學習與視覺實驗室](http://lv - nus.org/)，新加坡國立大學
論文: [Arxiv] 代碼: [GitHub]

BibTex 引用

如果您在研究中使用了 SlimSAM，請使用以下 BibTeX 條目。感謝您的支持！

@misc{chen202301,
      title={0.1% Data Makes Segment Anything Slim}, 
      author={Zigeng Chen and Gongfan Fang and Xinyin Ma and Xinchao Wang},
      year={2023},
      eprint={2312.05284},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

致謝

SAM (Segment Anything) [bib]

@article{kirillov2023segany,
  title={Segment Anything}, 
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C. and Lo, Wan-Yen and Doll{\'a}r, Piotr and Girshick, Ross},
  journal={arXiv:2304.02643},
  year={2023}
}

Torch Pruning (DepGraph: Towards Any Structural Pruning) [bib]

@inproceedings{fang2023depgraph,
  title={Depgraph: Towards any structural pruning},
  author={Fang, Gongfan and Ma, Xinyin and Song, Mingli and Mi, Michael Bi and Wang, Xinchao},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={16091--16101},
  year={2023}
}