モデル概要
モデル特徴
モデル能力
使用事例
🚀 高品質セグメンテーションモデル (SAM-HQ)
SAM-HQは、入力されたポイントやボックスなどのプロンプトから、高品質なオブジェクトマスクを生成するセグメンテーションモデルです。
🚀 クイックスタート
SAM-HQ (Segment Anything in High Quality) は、Segment Anything Model (SAM) の拡張版で、ポイントやボックスなどの入力プロンプトから、より高品質なオブジェクトマスクを生成します。SAMは1100万枚の画像と11億個のマスクのデータセットで学習されましたが、多くのケースでマスク予測の品質が不十分で、特に複雑な構造のオブジェクトを扱う際に問題があります。SAM-HQは、最小限の追加パラメータと計算コストでこれらの制限を解消します。
このモデルは、元のSAMモデルが苦戦する複雑な境界や細い構造のオブジェクトでも、高品質なセグメンテーションマスクを生成することができます。SAM-HQは、SAMの元のプロンプト可能な設計、効率性、ゼロショット汎化性を維持しながら、マスク品質を大幅に向上させます。
✨ 主な機能
高品質出力トークン
SAMのマスクデコーダに注入される学習可能なトークンで、高品質なマスクを予測する役割を担います。SAMの元の出力トークンとは異なり、このトークンと関連するMLP層は、高精度なセグメンテーションマスクを生成するように特別に学習されています。
グローバル・ローカル特徴融合
SAM-HQは、マスクデコーダの特徴にHQ-Outputトークンを適用するだけでなく、これらの特徴を早期および最終的なViT特徴と融合して、マスクの詳細を改善します。これにより、高レベルのセマンティックコンテキストと低レベルの境界情報の両方を組み合わせて、より正確なセグメンテーションを行います。
📦 インストール
このライブラリはtransformers
を使用しています。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from PIL import Image
import requests
from transformers import SamHQModel, SamHQProcessor
model = SamHQModel.from_pretrained("syscv-community/sam-hq-vit-large")
processor = SamHQProcessor.from_pretrained("syscv-community/sam-hq-vit-large")
img_url = "https://raw.githubusercontent.com/SysCV/sam-hq/refs/heads/main/demo/input_imgs/example1.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_boxes = [[[306, 132, 925, 893]]] # Bounding box for the image
高度な使用法
from transformers import pipeline
generator = pipeline("mask-generation", model="syscv-community/sam-hq-vit-large", device=0, points_per_batch=256)
image_url = "https://raw.githubusercontent.com/SysCV/sam-hq/refs/heads/main/demo/input_imgs/example1.png"
outputs = generator(image_url, points_per_batch=256)
可視化を含む完全な例
import numpy as np
import matplotlib.pyplot as plt
def show_mask(mask, ax, random_color=False):
if random_color:
color = np.concatenate([np.random.random(3), np.array([0.6])], axis=0)
else:
color = np.array([30/255, 144/255, 255/255, 0.6])
h, w = mask.shape[-2:]
mask_image = mask.reshape(h, w, 1) * color.reshape(1, 1, -1)
ax.imshow(mask_image)
def show_box(box, ax):
x0, y0 = box[0], box[1]
w, h = box[2] - box[0], box[3] - box[1]
ax.add_patch(plt.Rectangle((x0, y0), w, h, edgecolor='green', facecolor=(0,0,0,0), lw=2))
def show_boxes_on_image(raw_image, boxes):
plt.figure(figsize=(10,10))
plt.imshow(raw_image)
for box in boxes:
show_box(box, plt.gca())
plt.axis('on')
plt.show()
def show_points_on_image(raw_image, input_points, input_labels=None):
plt.figure(figsize=(10,10))
plt.imshow(raw_image)
input_points = np.array(input_points)
if input_labels is None:
labels = np.ones_like(input_points[:, 0])
else:
labels = np.array(input_labels)
show_points(input_points, labels, plt.gca())
plt.axis('on')
plt.show()
def show_points_and_boxes_on_image(raw_image, boxes, input_points, input_labels=None):
plt.figure(figsize=(10,10))
plt.imshow(raw_image)
input_points = np.array(input_points)
if input_labels is None:
labels = np.ones_like(input_points[:, 0])
else:
labels = np.array(input_labels)
show_points(input_points, labels, plt.gca())
for box in boxes:
show_box(box, plt.gca())
plt.axis('on')
plt.show()
def show_points_and_boxes_on_image(raw_image, boxes, input_points, input_labels=None):
plt.figure(figsize=(10,10))
plt.imshow(raw_image)
input_points = np.array(input_points)
if input_labels is None:
labels = np.ones_like(input_points[:, 0])
else:
labels = np.array(input_labels)
show_points(input_points, labels, plt.gca())
for box in boxes:
show_box(box, plt.gca())
plt.axis('on')
plt.show()
def show_points(coords, labels, ax, marker_size=375):
pos_points = coords[labels==1]
neg_points = coords[labels==0]
ax.scatter(pos_points[:, 0], pos_points[:, 1], color='green', marker='*', s=marker_size, edgecolor='white', linewidth=1.25)
ax.scatter(neg_points[:, 0], neg_points[:, 1], color='red', marker='*', s=marker_size, edgecolor='white', linewidth=1.25)
def show_masks_on_image(raw_image, masks, scores):
if len(masks.shape) == 4:
masks = masks.squeeze()
if scores.shape[0] == 1:
scores = scores.squeeze()
nb_predictions = scores.shape[-1]
fig, axes = plt.subplots(1, nb_predictions, figsize=(15, 15))
for i, (mask, score) in enumerate(zip(masks, scores)):
mask = mask.cpu().detach()
axes[i].imshow(np.array(raw_image))
show_mask(mask, axes[i])
axes[i].title.set_text(f"Mask {i+1}, Score: {score.item():.3f}")
axes[i].axis("off")
plt.show()
def show_masks_on_single_image(raw_image, masks, scores):
if len(masks.shape) == 4:
masks = masks.squeeze()
if scores.shape[0] == 1:
scores = scores.squeeze()
# Convert image to numpy array if it's not already
image_np = np.array(raw_image)
# Create a figure
fig, ax = plt.subplots(figsize=(8, 8))
ax.imshow(image_np)
# Overlay all masks on the same image
for i, (mask, score) in enumerate(zip(masks, scores)):
mask = mask.cpu().detach().numpy() # Convert to NumPy
show_mask(mask, ax) # Assuming `show_mask` properly overlays the mask
ax.set_title(f"Overlayed Masks with Scores")
ax.axis("off")
plt.show()
import torch
from transformers import SamHQModel, SamHQProcessor
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SamHQModel.from_pretrained("syscv-community/sam-hq-vit-large").to(device)
processor = SamHQProcessor.from_pretrained("syscv-community/sam-hq-vit-large")
from PIL import Image
import requests
img_url = "https://raw.githubusercontent.com/SysCV/sam-hq/refs/heads/main/demo/input_imgs/example1.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
plt.imshow(raw_image)
inputs = processor(raw_image, return_tensors="pt").to(device)
image_embeddings, intermediate_embeddings = model.get_image_embeddings(inputs["pixel_values"])
input_boxes = [[[306, 132, 925, 893]]]
show_boxes_on_image(raw_image, input_boxes[0])
inputs.pop("pixel_values", None)
inputs.update({"image_embeddings": image_embeddings})
inputs.update({"intermediate_embeddings": intermediate_embeddings})
with torch.no_grad():
outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores
show_masks_on_single_image(raw_image, masks[0], scores)
show_masks_on_image(raw_image, masks[0], scores)
📚 ドキュメント
モデルの詳細
SAM-HQは、SAMの事前学習済みの重みを保持しながら、元のSAMアーキテクチャに2つの重要な革新を加えています。
- 高品質出力トークン:SAMのマスクデコーダに注入される学習可能なトークンで、高品質なマスクを予測する役割を担います。SAMの元の出力トークンとは異なり、このトークンと関連するMLP層は、高精度なセグメンテーションマスクを生成するように特別に学習されています。
- グローバル・ローカル特徴融合:SAM-HQは、マスクデコーダの特徴にHQ-Outputトークンを適用するだけでなく、これらの特徴を早期および最終的なViT特徴と融合して、マスクの詳細を改善します。これにより、高レベルのセマンティックコンテキストと低レベルの境界情報の両方を組み合わせて、より正確なセグメンテーションを行います。
SAM-HQは、いくつかのソースから収集された非常に正確なアノテーションを持つ44Kの細粒度マスク (HQSeg-44K) のデータセットで学習されました。学習プロセスは、8つのGPUでわずか4時間で完了し、元のSAMモデルに比べて0.5%未満の追加パラメータを導入します。
このモデルは、10種類の多様なセグメンテーションデータセットで評価され、そのうち8つはゼロショット転送プロトコルで評価されました。結果は、SAM-HQが元のSAMモデルよりも大幅に良いマスクを生成できることを示しており、ゼロショット汎化能力も維持しています。
SAM-HQは、元のSAMモデルの2つの主要な問題を解決します。
- 粗いマスク境界で、細いオブジェクト構造を見落とすことが多い。
- 難しいケースでの誤った予測、破損したマスク、または大きな誤差。
これらの改善により、SAM-HQは、自動アノテーションや画像/ビデオ編集タスクなど、高精度な画像マスクが必要なアプリケーションに特に有用です。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
🔧 技術詳細
引用
@misc{ke2023segmenthighquality,
title={Segment Anything in High Quality},
author={Lei Ke and Mingqiao Ye and Martin Danelljan and Yifan Liu and Yu-Wing Tai and Chi-Keung Tang and Fisher Yu},
year={2023},
eprint={2306.01567},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2306.01567},
}











