SlimSAM-uniform-77オープンソースモデル - 事前学習されたSAMを効率的に再利用し、大量の繰り返し学習を必要としません

ホーム

Slimsam Uniform 77

Zigengによって開発

SlimSAMは革新的なSAMモデル圧縮手法で、統一プルーニング-蒸留フレームワークにより事前学習済みSAMを効率的に再利用でき、大量の再訓練を必要としません。

画像セグメンテーション

Transformers

その他オープンソースライセンス:Apache-2.0 #軽量化分割 #低データ依存 #プルーニング蒸留

ダウンロード数 18.82k

リリース時間 : 1/8/2024

モデル概要

SlimSAMはSegment Anything Model(SAM)の軽量化バージョンで、革新的なプルーニング-蒸留フレームワークによるモデル圧縮を実現し、パラメータ数と演算量を大幅に削減しながら、オリジナルモデルに近い性能を維持します。

モデル特徴

効率的圧縮

訓練データの0.1%のみでモデル圧縮を実現、パラメータ量0.9%、演算量0.8%に削減

交互スリム化戦略

段階的プルーニングと蒸留ステップにより、オリジナルSAMの知識伝達を強化

ラベル不要プルーニング基準

プルーニング目標と最適化方向を整合させ、プルーニング後の蒸留効果を向上

モデル能力

画像分割

物体認識

意味的分割

使用事例

コンピュータビジョン

物体分割

画像内の特定物体を精密に分割

少量の訓練データでもオリジナルSAMに近い分割精度を維持

軽量化デプロイ

リソース制約のあるデバイスでの画像分割モデル展開

モデルサイズと計算要求を大幅に削減

🚀 SlimSAM: 0.1% のデータでセグメントエブリシングをスリム化

SlimSAM は、事前学習されたSAMを大規模な再学習なしに効率的に再利用する、新しいSAM圧縮手法です。これは、統一されたプルーニング - 蒸留フレームワークを通じて事前学習されたSAMを効率的に再利用することで実現されます。元のSAMからの知識継承を強化するために、我々は圧縮プロセスを段階的な手順に分割する革新的な交互スリミング戦略を採用しています。従来のプルーニング手法とは異なり、我々は切り離されたモデル構造を交互に注意深くプルーニングし、蒸留します。さらに、新しいラベルフリーのプルーニング基準も提案されており、プルーニングの目的を最適化ターゲットに合わせることで、プルーニング後の蒸留性能を向上させています。

SlimSAMは、元のSAM - Hと比較して、パラメータ数を0.9% (570万)、MACsを**0.8% (21G)に削減し、わずか0.1% (1万)**の学習データしか必要とせず、同等の性能を達成します。広範な実験により、我々の手法は他のSAM圧縮手法と比較して、10倍以上少ない学習データを使用しながら、大幅に優れた性能を実現することが示されています。

🚀 クイックスタート

SlimSAMは、事前学習されたSAMを効率的に再利用することで、大規模な再学習を必要とせずにSAMを圧縮する新しい手法です。以下に、このプロジェクトの概要と使用方法を紹介します。

✨ 主な機能

事前学習されたSAMを大規模な再学習なしに効率的に再利用する。
統一されたプルーニング - 蒸留フレームワークを通じて圧縮を実現する。
革新的な交互スリミング戦略を用いて、知識継承を強化する。
新しいラベルフリーのプルーニング基準を提案し、プルーニング後の蒸留性能を向上させる。
元のSAM - Hと比較して、パラメータ数、MACs、学習データ量を大幅に削減しながら、同等の性能を達成する。

📦 インストール

このセクションではインストールに関する内容が原READMEに記載されていないため、省略します。

💻 使用例

基本的な使用法

ローカルの均一プルーニングSlimSAM - 50モデルの高速state_dictロード:

model = SamModel.from_pretrained("Zigeng/SlimSAM-uniform-77").to("cuda")
processor = SamProcessor.from_pretrained("Zigeng/SlimSAM-uniform-77")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]] # 2D localization of a window
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")
outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

📚 ドキュメント

論文情報

0.1% Data Makes Segment Anything Slim
Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang
Learning and Vision Lab, National University of Singapore
論文: [Arxiv] コード: [GitHub]

引用情報

本研究のSlimSAMのBibTeX

もしあなたの研究でSlimSAMを使用する場合は、以下のBibTeXエントリを使用してください。ありがとうございます！

@misc{chen202301,
      title={0.1% Data Makes Segment Anything Slim}, 
      author={Zigeng Chen and Gongfan Fang and Xinyin Ma and Xinchao Wang},
      year={2023},
      eprint={2312.05284},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}