dpt-large-ade20k開源語義分割模型 - 為ADE20K數據集優化精準分割

首頁

Dpt Large Ade20k

由smp-hub開發

基於Transformer架構的語義分割模型，專為ADE20K數據集優化

圖像分割

Safetensors

開源協議:MIT #高分辨率語義分割 #ViT骨幹網絡 #ADE20K適配

下載量 279

發布時間 : 4/6/2025

模型概述

DPT是一種基於Transformer的語義分割模型，採用Vision Transformer作為編碼器，能夠高效處理高分辨率圖像分割任務。該模型在ADE20K數據集上預訓練，適用於場景理解任務。

模型特點

基於Transformer的架構

採用Vision Transformer作為編碼器，能夠捕獲長距離依賴關係

動態圖像尺寸支持

支持處理不同尺寸的輸入圖像

預訓練權重

在ADE20K數據集上預訓練，可直接用於下游任務

模型能力

圖像語義分割

場景理解

像素級分類

使用案例

計算機視覺

場景解析

對複雜場景中的各個元素進行像素級分類

可識別150個不同類別的物體和區域

自動駕駛環境感知

解析道路場景中的各種元素

🚀 分割模型庫（segmentation - models - pytorch）之DPT模型

本項目是基於segmentation - models - pytorch庫的圖像分割模型DPT，可用於語義分割任務，藉助該模型能方便地對圖像進行分割處理，在圖像分析等領域具有重要價值。

🚀 快速開始

加載預訓練模型

點擊下面的按鈕在Colab中運行示例：

安裝依賴

pip install -U segmentation_models_pytorch albumentations

運行推理

import torch
import requests
import numpy as np
import albumentations as A
import segmentation_models_pytorch as smp

from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"

# 加載預訓練模型和預處理函數
checkpoint = "smp-hub/dpt-large-ade20k"
model = smp.from_pretrained(checkpoint).eval().to(device)
preprocessing = A.Compose.from_pretrained(checkpoint)

# 加載圖像
url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# 預處理圖像
np_image = np.array(image)
normalized_image = preprocessing(image=np_image)["image"]
input_tensor = torch.as_tensor(normalized_image)
input_tensor = input_tensor.permute(2, 0, 1).unsqueeze(0)  # HWC -> BCHW
input_tensor = input_tensor.to(device)

# 進行推理
with torch.no_grad():
    output_mask = model(input_tensor)

# 後處理掩碼
mask = torch.nn.functional.interpolate(
    output_mask, size=(image.height, image.width), mode="bilinear", align_corners=False
)
mask = mask.argmax(1).cpu().numpy()  # argmax over predicted classes (channels dim)

💻 使用示例

基礎用法

import torch
import requests
import numpy as np
import albumentations as A
import segmentation_models_pytorch as smp

from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"

# 加載預訓練模型和預處理函數
checkpoint = "smp-hub/dpt-large-ade20k"
model = smp.from_pretrained(checkpoint).eval().to(device)
preprocessing = A.Compose.from_pretrained(checkpoint)

# 加載圖像
url = "https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# 預處理圖像
np_image = np.array(image)
normalized_image = preprocessing(image=np_image)["image"]
input_tensor = torch.as_tensor(normalized_image)
input_tensor = input_tensor.permute(2, 0, 1).unsqueeze(0)  # HWC -> BCHW
input_tensor = input_tensor.to(device)

# 進行推理
with torch.no_grad():
    output_mask = model(input_tensor)

# 後處理掩碼
mask = torch.nn.functional.interpolate(
    output_mask, size=(image.height, image.width), mode="bilinear", align_corners=False
)
mask = mask.argmax(1).cpu().numpy()  # argmax over predicted classes (channels dim)

📚 詳細文檔

模型初始化參數

model_init_params = {
    "encoder_name": "tu-vit_large_patch16_384",
    "encoder_depth": 4,
    "encoder_weights": None,
    "encoder_output_indices": None,
    "decoder_intermediate_channels": (256, 512, 1024, 1024),
    "decoder_fusion_channels": 256,
    "dynamic_img_size": True,
    "in_channels": 3,
    "classes": 150,
    "activation": None,
    "aux_params": None
}