SlimSAM-uniform-50オープンソースモデル - 剪枝蒸留フレームワークを用いて同様の性能を効率的に生成し、トレーニングデータを大幅に節約！

ホーム

Slimsam Uniform 50

Zigengによって開発

SlimSAMは革新的なSAMモデル圧縮手法で、プルーニング-蒸留フレームワークにより事前学習済みSAMを効率的に再利用し、わずか0.1%のトレーニングデータで同等の性能を達成します。

画像セグメンテーション

Transformers

その他オープンソースライセンス:Apache-2.0 #軽量セグメンテーションモデル #低データ依存 #プルーニング・蒸留技術

ダウンロード数 9,459

リリース時間 : 1/8/2024

モデル概要

SlimSAMはSegment Anything Model(SAM)の軽量版で、革新的な交互スリミング戦略とプルーニング-蒸留フレームワークにより、モデルパラメータ数と演算量を大幅に削減しながら、元のSAMのセグメンテーション性能を維持しています。

モデル特徴

効率的な圧縮

SAMモデルのパラメータ数を0.9%(570万)、演算量を0.8%(210億回)に削減

データ効率

わずか0.1%(1万枚)のトレーニングデータで元SAMと同等の性能を達成

交互スリミング戦略

革新的なプルーニング-蒸留フレームワークでモデルを段階的に圧縮し、知識継承を強化

ラベル不要プルーニング基準

プルーニング目標と最適化指標を整合させ、プルーニング後の蒸留効果を向上

モデル能力

画像セグメンテーション

物体認識

視覚的特徴抽出

使用事例

コンピュータビジョン

汎用画像セグメンテーション

任意画像中の物体をセグメント化

99.9%パラメータ削減下でも元SAMと同等のセグメンテーション精度を維持

リソース制約環境での展開

計算リソースが限られたデバイスで効率的な画像セグメンテーションを実現

演算量を元SAMの0.8%に削減

🚀 SlimSAM: 0.1% のデータでセグメントエブリシングを軽量化

SlimSAMは、SAM（Segment Anything Model）を効率的に圧縮する新しい手法です。大量の再学習を必要とせず、事前学習されたSAMを再利用することで、パラメータ数や計算量を大幅に削減し、少ないデータで高性能を達成します。

🚀 クイックスタート

概要

SlimSAMは、新しいSAM圧縮手法で、事前学習されたSAMを効率的に再利用し、大量の再学習を必要としません。これは、統一的な剪定・蒸留フレームワークを通じて事前学習されたSAMを効率的に再利用することで実現されます。元のSAMからの知識継承を強化するために、革新的な交互スリミング戦略を採用し、圧縮プロセスを段階的な手順に分割します。従来の剪定技術とは異なり、分離されたモデル構造を交互に慎重に剪定し、蒸留します。さらに、新しいラベルフリーの剪定基準も提案され、剪定目標を最適化ターゲットに合わせることで、剪定後の蒸留性能を向上させます。

SlimSAMは、元のSAM-Hと比較して、パラメータ数を0.9% (570万)、MACsを**0.8% (21G)に削減し、トレーニングデータをわずか0.1% (1万)**しか必要とせず、同等の性能を達成します。広範な実験により、他のSAM圧縮手法と比較して、10倍以上少ないトレーニングデータを使用しながら、大幅に優れた性能を実現することが示されています。

✨ 主な機能

事前学習されたSAMを効率的に再利用し、大量の再学習を必要としない。
革新的な交互スリミング戦略を採用し、知識継承を強化する。
新しいラベルフリーの剪定基準を提案し、剪定後の蒸留性能を向上させる。
パラメータ数、MACs、トレーニングデータ量を大幅に削減し、同等の性能を達成する。

💻 使用例

基本的な使用法

ローカルの均一剪定SlimSAM-50モデルの高速state_dictロード:

model = SamModel.from_pretrained("Zigeng/SlimSAM-uniform-50").to("cuda")
processor = SamProcessor.from_pretrained("Zigeng/SlimSAM-uniform-50")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]] # 2D localization of a window
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")
outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

BibTex of our SlimSAM

もしあなたの研究でSlimSAMを使用する場合は、以下のBibTeXエントリを使用してください。ありがとうございます！

@misc{chen202301,
      title={0.1% Data Makes Segment Anything Slim}, 
      author={Zigeng Chen and Gongfan Fang and Xinyin Ma and Xinchao Wang},
      year={2023},
      eprint={2312.05284},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Acknowledgement

SAM (Segment Anything) [bib]

@article{kirillov2023segany,
  title={Segment Anything}, 
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C. and Lo, Wan-Yen and Doll{\'a}r, Piotr and Girshick, Ross},
  journal={arXiv:2304.02643},
  year={2023}
}

Torch Pruning (DepGraph: Towards Any Structural Pruning) [bib]

@inproceedings{fang2023depgraph,
  title={Depgraph: Towards any structural pruning},
  author={Fang, Gongfan and Ma, Xinyin and Song, Mingli and Mi, Michael Bi and Wang, Xinchao},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={16091--16101},
  year={2023}
}