Segformer-b2開源語義分割模型 - 免費部署，針對Cityscapes數據集優化

首頁

Segformer B2 1024x1024 City 160k

由smp-hub開發

基於Segformer架構的語義分割模型，專門針對Cityscapes數據集進行優化

圖像分割

Safetensors

開源協議:其他 #城市景觀分割 #高分辨率圖像處理 #語義分割

下載量 651

發布時間 : 11/29/2024

模型概述

這是一個基於PyTorch實現的Segformer模型，用於城市街景的語義分割任務。模型採用MIT-B2作為編碼器，在1024x1024分辨率下訓練，適用於城市場景的精細分割。

模型特點

高效分割架構

採用Segformer架構，結合了Transformer的優勢和高效的分割性能

高分辨率處理

支持1024x1024的高分辨率輸入，適合城市場景的精細分割

預訓練模型

提供在Cityscapes數據集上預訓練的模型權重，可直接用於推理

模型能力

街景圖像語義分割

像素級分類

城市場景理解

使用案例

智能交通

道路場景解析

識別道路、車輛、行人等交通元素

可用於自動駕駛系統的環境感知

城市規劃

城市基礎設施分析

識別建築物、道路、綠化帶等城市元素

輔助城市規劃決策

🚀 分割模型庫 - PyTorch版

本項目是一個基於 PyTorch 的圖像分割模型庫，提供了預訓練的 Segformer 模型，可用於圖像分割任務，能幫助開發者快速搭建和訓練自己的圖像分割模型。

🚀 快速開始

加載預訓練模型

點擊下面的按鈕在 Colab 中運行示例：

步驟 1：安裝依賴

pip install -U segmentation_models_pytorch albumentations

步驟 2：運行推理

import torch
import requests
import numpy as np
import albumentations as A
import segmentation_models_pytorch as smp

from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"

# 加載預訓練模型和預處理函數
checkpoint = "smp-hub/segformer-b2-1024x1024-city-160k"
model = smp.from_pretrained(checkpoint).eval().to(device)
preprocessing = A.Compose.from_pretrained(checkpoint)

# 加載圖像
url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# 預處理圖像
np_image = np.array(image)
normalized_image = preprocessing(image=np_image)["image"]
input_tensor = torch.as_tensor(normalized_image)
input_tensor = input_tensor.permute(2, 0, 1).unsqueeze(0)  # HWC -> BCHW
input_tensor = input_tensor.to(device)

# 進行推理
with torch.no_grad():
    output_mask = model(input_tensor)

# 後處理掩碼
mask = torch.nn.functional.interpolate(
    output_mask, size=(image.height, image.width), mode="bilinear", align_corners=False
)
mask = mask.argmax(1).cpu().numpy()  # 在預測類別（通道維度）上取最大值

💻 使用示例

基礎用法

上述加載預訓練模型並進行推理的代碼就是基礎用法示例，通過簡單的幾步操作，即可使用預訓練的 Segformer 模型對圖像進行分割。

📚 詳細文檔

模型初始化參數

model_init_params = {
    "encoder_name": "mit_b2",
    "encoder_depth": 5,
    "encoder_weights": None,
    "decoder_segmentation_channels": 768,
    "in_channels": 3,
    "classes": 19,
    "activation": None,
    "aux_params": None
}