RobustSAM-vit-large开源分割模型 - 提升低质量图像任意对象分割性能

首页

Robustsam Vit Large

由 jadechoghari 开发

RobustSAM是一种在退化图像上稳健分割任意对象的模型，基于SAM改进，提升了在低质量图像上的分割性能。

图像分割

Transformers

其他开源协议:MIT #退化图像分割 #零样本学习 #视觉大模型

下载量 86

发布时间 : 8/16/2024

模型简介

RobustSAM是分割任意模型(SAM)的改进版本，专注于提升在质量退化图像(如模糊、雾霾、低光照等)上的分割性能，同时保持原始SAM的零样本泛化能力和提示系统。

模型特点

退化图像鲁棒性

专门优化以处理模糊、雾霾、低光照等退化条件下的图像分割任务

零样本泛化能力

保持原始SAM的零样本学习能力，无需特定训练即可处理新类别

高效训练

仅需少量参数增加，可在8块GPU上30小时内完成优化

综合数据集支持

提供包含68.8万组退化图像-掩码对的Robust-Seg数据集

模型能力

图像分割

零样本学习

提示式分割

自动掩码生成

退化图像处理

使用案例

计算机视觉

退化图像分割

在模糊、雾霾、低光照等条件下的图像分割

相比原始SAM有显著性能提升

单图像去雾/去模糊

作为预处理步骤提升下游去雾/去模糊任务性能

有效提升下游任务性能

自动驾驶

恶劣天气条件下的物体检测

在雨雾等恶劣天气条件下进行道路物体分割

🚀 RobustSAM：在低质量图像上实现稳健分割的模型

RobustSAM是一种用于图像分割的模型，它在Segment Anything Model (SAM) 的基础上进行改进，有效提升了在低质量图像上的分割性能，同时保留了SAM的可提示性和零样本泛化能力。该模型仅需少量参数增量和计算资源，还引入了Robust - Seg数据集用于训练和评估。

🚀 快速开始

Segment Anything Model (SAM) 在图像分割领域表现出色，具备强大的零样本分割能力和灵活的提示系统，但在处理低质量图像时性能受限。为解决这一问题，我们提出了Robust Segment Anything Model (RobustSAM)，它在提升SAM在低质量图像上性能的同时，保留了其可提示性和零样本泛化能力。

我们的方法基于预训练的SAM模型，仅需少量参数增量和计算资源。RobustSAM的额外参数可在8个GPU上30小时内完成优化，适合一般研究实验室使用。我们还引入了Robust - Seg数据集，包含688K对不同退化程度的图像 - 掩码对，用于最佳地训练和评估我们的模型。大量实验表明，RobustSAM在各种分割任务和数据集上表现优异，尤其在零样本条件下，具有广泛的实际应用潜力。此外，我们的方法还能有效提升基于SAM的下游任务，如单图像去雾和去模糊的性能。

免责声明：本模型卡片的内容由Hugging Face团队编写，部分内容从原始的 SAM模型卡片复制粘贴而来。

✨ 主要特性

性能提升：有效提升了SAM在低质量图像上的分割性能。
参数高效：仅需少量参数增量和计算资源。
数据集支持：引入Robust - Seg数据集用于训练和评估。
泛化能力：保留了SAM的可提示性和零样本泛化能力。
下游任务增强：能有效提升基于SAM的下游任务性能。

📚 详细文档

模型细节

RobustSAM模型由3个模块组成：

VisionEncoder：基于VIT的图像编码器，使用图像块上的注意力机制计算图像嵌入，采用相对位置嵌入。
PromptEncoder：为点和边界框生成嵌入。
MaskDecoder：双向变压器，在图像嵌入和点嵌入之间进行交叉注意力计算，并将输出输入到Neck模块。
Neck：根据MaskDecoder生成的上下文掩码预测输出掩码。

引用

如果您觉得这项工作有用，请考虑引用我们：

@inproceedings{chen2024robustsam,
  title={RobustSAM: Segment Anything Robustly on Degraded Images},
  author={Chen, Wei - Ting and Vong, Yu - Jiet and Kuo, Sy - Yen and Ma, Sizhou and Wang, Jian},
  journal={CVPR},
  year={2024}
}

致谢

我们感谢 SAM 的作者，我们的仓库基于他们的工作。

💻 使用示例

基础用法

提示掩码生成

from PIL import Image
import requests
from transformers import AutoProcessor, AutoModelForMaskGeneration

# 加载RobustSAM模型和处理器
processor = AutoProcessor.from_pretrained("jadechoghari/robustsam-vit-large")
model = AutoModelForMaskGeneration.from_pretrained("jadechoghari/robustsam-vit-large")

# 从URL加载图像
img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")

# 定义输入点（图像中对象的2D定位）
input_points = [[[450, 600]]]  # 示例点

# 处理图像和输入点
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")

# 使用模型生成掩码
with torch.no_grad():
    outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu())
scores = outputs.iou_scores

在生成掩码时，除了其他参数外，您可以传入感兴趣对象的近似2D位置、包围感兴趣对象的边界框（格式应为边界框右上角和左下角的x, y坐标）、分割掩码。根据官方仓库，截至编写本文时，官方模型不支持将文本作为输入。

高级用法

自动掩码生成

模型可以以“零样本”方式根据输入图像生成分割掩码。模型会自动使用1024个点的网格进行提示，并将这些点输入到模型中。

以下代码展示了如何轻松运行自动掩码生成管道（可在任何设备上运行，只需传入适当的points_per_batch参数）：

from transformers import pipeline

# 初始化掩码生成管道
generator = pipeline("mask-generation", model="jadechoghari/robustsam-vit-large", device=0, points_per_batch=256)

image_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
outputs = generator(image_url, points_per_batch=256)

以下代码展示了如何在图像上显示生成的掩码：

import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

# 简单函数用于显示掩码
def show_mask(mask, ax, random_color=False):
    if random_color:
        color = np.concatenate([np.random.random(3), np.array([0.6])], axis=0)
    else:
        color = np.array([30 / 255, 144 / 255, 255 / 255, 0.6])
    
    # 从掩码中获取高度和宽度
    h, w = mask.shape[-2:]
    mask_image = mask.reshape(h, w, 1) * color.reshape(1, 1, -1)
    ax.imshow(mask_image)

# 显示原始图像
plt.imshow(np.array(raw_image))
ax = plt.gca()

# 遍历掩码并显示每个掩码
for mask in outputs["masks"]:
    show_mask(mask, ax=ax, random_color=True)

plt.axis("off")

# 显示带有掩码的图像
plt.show()