RobustSAM-vit-baseオープンソース画像分割モデル - 低品質画像の分割性能を向上させる

ホーム

Robustsam Vit Base

jadechoghariによって開発

RobustSAMは劣化画像においてロバストなセグメンテーションを実現するモデルで、SAMを改良し、低品質画像でのセグメンテーション性能を向上させています。

画像セグメンテーション

Transformers

その他オープンソースライセンス:MIT #劣化画像セグメンテーション #ゼロショット汎化 #ロバストセグメンテーション

ダウンロード数 314

リリース時間 : 8/16/2024

モデル概要

RobustSAMはSegment Anything Model(SAM)の改良版で、画像品質が劣化した場合でもセグメンテーション性能を維持することに焦点を当てています。SAMのプロンプト機能やゼロショット汎化能力を保持しつつ、わずかなパラメータ追加と計算要件の最適化により、低品質画像での性能を向上させています。

モデル特徴

劣化画像に対するロバスト性

低品質画像（ぼやけ、ヘイズ、低照度など）でのセグメンテーション性能を特別に最適化

効率的な最適化

わずかなパラメータ追加のみで、8GPUで30時間以内に最適化可能

ゼロショット能力

SAMの強力なゼロショットセグメンテーション能力を保持、特定タスクのトレーニング不要

プロンプトシステム

点、バウンディングボックスなど多様なプロンプト方式をサポートし、柔軟なセグメンテーション制御を提供

モデル能力

画像セグメンテーション

ゼロショットセグメンテーション

プロンプトベースセグメンテーション

自動マスク生成

劣化画像処理

使用事例

コンピュータビジョン

劣化画像セグメンテーション

ぼやけ、ヘイズ、低照度などの劣化条件下での画像セグメンテーション

オリジナルSAMと比べて顕著な性能向上

医療画像分析

低品質の医療画像セグメンテーションの処理

自動運転

悪天候条件下でのシーン理解

画像処理

画像のヘイズ除去

ヘイズ除去タスクの前処理としてのセグメンテーションステップ

下流のヘイズ除去タスク性能を向上

画像のぼやけ除去

ぼやけ除去タスクの前処理としてのセグメンテーションステップ

下流のぼやけ除去タスク性能を向上

🚀 RobustSAM: 劣化画像に対する高精度セグメンテーションモデル (CVPR 2024 Highlight)

RobustSAMは、劣化画像に対しても強力なセグメンテーション能力を発揮するモデルです。SAMの性能を向上させ、低品質画像でも高精度なセグメンテーションを実現します。

RobustSAMの公式リポジトリです。劣化画像に対しても強力なセグメンテーション能力を発揮します。

プロジェクトページ | 論文 | データセット

🚀 クイックスタート

Segment Anything Model (SAM) は画像セグメンテーションにおいて画期的なアプローチとして登場し、強力なゼロショットセグメンテーション能力と柔軟なプロンプトシステムで評価されています。しかし、画質が劣化した画像に対しては性能が低下するという課題があります。この制限を解消するために、我々はRobust Segment Anything Model (RobustSAM) を提案します。このモデルは、低品質画像に対するSAMの性能を向上させると同時に、プロンプト性とゼロショット汎化能力を維持します。

我々の手法は、事前学習されたSAMモデルを活用し、わずかなパラメータの増加と計算コストで実現されます。RobustSAMの追加パラメータは、8台のGPUで30時間以内に最適化できるため、一般的な研究室でも実用的です。また、我々はRobust-Segデータセットを導入しました。これは、様々な劣化を持つ688Kの画像-マスクペアのコレクションで、モデルの訓練と評価に最適です。様々なセグメンテーションタスクとデータセットに対する広範な実験により、RobustSAMの優れた性能が確認されており、特にゼロショット条件下での性能が高く、実世界での広範な応用が期待されます。さらに、我々の手法は、単一画像のヘイズ除去やブラー除去などのSAMベースの下流タスクの性能を効果的に向上させることが示されています。

免責事項: このモデルカードの内容はHugging Faceチームによって作成され、一部は元のSAMモデルカードからコピーされています。

✨ 主な機能

低品質画像での高性能化：SAMの性能を向上させ、低品質画像に対しても高精度なセグメンテーションを実現します。
少ないパラメータ増加：事前学習されたSAMモデルを活用し、わずかなパラメータの増加で実現されます。
実用的な訓練時間：追加パラメータは8台のGPUで30時間以内に最適化できます。
Robust-Segデータセット：様々な劣化を持つ画像-マスクペアのコレクションで、モデルの訓練と評価に最適です。
広範な応用可能性：様々なセグメンテーションタスクやSAMベースの下流タスクでの性能向上が期待されます。

📚 ドキュメント

モデルの詳細

RobustSAMモデルは3つのモジュールで構成されています。

VisionEncoder：VITベースの画像エンコーダです。画像のパッチに対するアテンションを使用して画像埋め込みを計算します。相対位置埋め込みが使用されています。
PromptEncoder：ポイントとバウンディングボックスの埋め込みを生成します。
MaskDecoder：双方向トランスフォーマーで、画像埋め込みとポイント埋め込みの間、およびポイント埋め込みと画像埋め込みの間でクロスアテンションを実行します。出力はNeckに入力されます。
Neck：MaskDecoderによって生成された文脈化されたマスクに基づいて出力マスクを予測します。

💻 使用例

基本的な使用法

プロンプト付きマスク生成

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModelForMaskGeneration

# load the RobustSAM model and processor
processor = AutoProcessor.from_pretrained("jadechoghari/robustsam-vit-base")
model = AutoModelForMaskGeneration.from_pretrained("jadechoghari/robustsam-vit-base")

# load an image from a url
img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")

# we define input points (2D localization of an object in the image)
input_points = [[[450, 600]]]  # example point

# process the image and input points
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")

# generate masks using the model
with torch.no_grad():
    outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

マスクを生成するための他の引数の中で、関心のあるオブジェクトの概略位置の2D座標、関心のあるオブジェクトを囲むバウンディングボックス（バウンディングボックスの右上と左下の点のx, y座標の形式）、セグメンテーションマスクを渡すことができます。執筆時点では、公式モデルではテキストを入力として渡すことはサポートされていません。詳細については、このノートブックを参照してください。これは、モデルの使用方法を視覚的な例とともに説明しています。

自動マスク生成

モデルは、入力画像を与えることで「ゼロショット」方式でセグメンテーションマスクを生成するために使用できます。モデルには自動的に1024のポイントのグリッドがプロンプトとして与えられ、すべてがモデルに入力されます。

以下のコードは、マスク生成のパイプラインを初期化し、画像からマスクを生成する方法を示しています。

from transformers import pipeline

# initialize the pipeline for mask generation
generator = pipeline("mask-generation", model="jadechoghari/robustsam-vit-base", device=0, points_per_batch=256)

image_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
outputs = generator(image_url, points_per_batch=256)

生成されたマスクを画像上に表示するには、以下のコードを使用します。

import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

# simple function to display the mask
def show_mask(mask, ax, random_color=False):
    if random_color:
        color = np.concatenate([np.random.random(3), np.array([0.6])], axis=0)
    else:
        color = np.array([30 / 255, 144 / 255, 255 / 255, 0.6])
    
    # get the height and width from the mask
    h, w = mask.shape[-2:]
    mask_image = mask.reshape(h, w, 1) * color.reshape(1, 1, -1)
    ax.imshow(mask_image)

# display the original image
plt.imshow(np.array(raw_image))
ax = plt.gca()

# loop through the masks and display each one
for mask in outputs["masks"]:
    show_mask(mask, ax=ax, random_color=True)

plt.axis("off")

# show the image with the masks
plt.show()

視覚的な比較

🔧 引用

この研究が役に立った場合は、以下のように引用してください。

@inproceedings{chen2024robustsam,
  title={RobustSAM: Segment Anything Robustly on Degraded Images},
  author={Chen, Wei-Ting and Vong, Yu-Jiet and Kuo, Sy-Yen and Ma, Sizhou and Wang, Jian},
  journal={CVPR},
  year={2024}
}