開源face-parsing模型 - 精準面部解析助力多應用場景語義分割

首頁

Face Parsing

由jonathandinu開發

基於nvidia/mit-b5微調的語義分割模型，用於面部解析任務

圖像分割

Transformers

英語#人臉部件分割 #高精度語義分割 #名人面部解析

下載量 398.59k

發布時間 : 7/6/2022

模型概述

這是一個基於Segformer架構的語義分割模型，專門用於面部解析任務，能夠將人臉圖像分割為19個不同的語義區域（如皮膚、眼睛、鼻子、嘴唇等）。

模型特點

高精度面部解析

能夠精確分割人臉的不同部位，包括皮膚、眼睛、眉毛、嘴唇等19個語義區域

基於Transformer架構

採用Segformer架構，結合了Transformer的優勢和高效設計

瀏覽器兼容

提供ONNX格式，支持在瀏覽器中使用Transformers.js進行推理

模型能力

面部區域分割

語義分割

圖像分析

人臉解析

使用案例

計算機視覺

美顏應用

精確識別面部不同區域，實現針對性美顏效果

可精確應用美顏效果到特定面部區域

虛擬化妝

識別嘴唇、眼睛等區域，實現虛擬化妝效果

可準確將虛擬化妝品應用到正確面部位置

面部特徵分析

分析面部不同區域的特徵和比例

可用於面部識別、情緒分析等應用

🚀 人臉解析模型

本項目是一個用於人臉解析的語義分割模型，它基於 nvidia/mit-b5 模型，並使用 CelebAMask-HQ 數據集進行微調。該模型可用於將人臉圖像分割為不同的語義區域，如皮膚、鼻子、眼睛等。此外，項目還提供了適用於 Python 和瀏覽器的使用示例，方便開發者集成。

示例圖像和輸出

語義分割模型從 nvidia/mit-b5 微調而來，使用 CelebAMask-HQ 數據集進行人臉解析。更多選項請參閱 Transformers Segformer 文檔。

用於 Web 推理的 ONNX 模型由 Xenova 貢獻。

📚 詳細文檔

標籤信息

完整的標籤列表可以從 config.json 中提取。

編號	標籤	說明
0	background	背景
1	skin	皮膚
2	nose	鼻子
3	eye_g	眼鏡
4	l_eye	左眼
5	r_eye	右眼
6	l_brow	左眉毛
7	r_brow	右眉毛
8	l_ear	左耳
9	r_ear	右耳
10	mouth	嘴唇間區域
11	u_lip	上嘴唇
12	l_lip	下嘴唇
13	hair	頭髮
14	hat	帽子
15	ear_r	耳環
16	neck_l	項鍊
17	neck	脖子
18	cloth	衣服

💻 使用示例

基礎用法（Python）

import torch
from torch import nn
from transformers import SegformerImageProcessor, SegformerForSemanticSegmentation

from PIL import Image
import matplotlib.pyplot as plt
import requests

# 方便自動確定設備
device = (
    "cuda"
    # NVIDIA 或 AMD GPU 設備
    if torch.cuda.is_available()
    else "mps"
    # Apple Silicon (Metal Performance Shaders) 設備
    if torch.backends.mps.is_available()
    else "cpu"
)

# 加載模型
image_processor = SegformerImageProcessor.from_pretrained("jonathandinu/face-parsing")
model = SegformerForSemanticSegmentation.from_pretrained("jonathandinu/face-parsing")
model.to(device)

# 期望輸入為 PIL.Image 或 torch.Tensor
url = "https://images.unsplash.com/photo-1539571696357-5a69c17a67c6"
image = Image.open(requests.get(url, stream=True).raw)

# 在圖像上運行推理
inputs = image_processor(images=image, return_tensors="pt").to(device)
outputs = model(**inputs)
logits = outputs.logits  # 形狀 (batch_size, num_labels, ~height/4, ~width/4)

# 調整輸出大小以匹配輸入圖像尺寸
upsampled_logits = nn.functional.interpolate(logits,
                size=image.size[::-1], # H x W
                mode='bilinear',
                align_corners=False)

# 獲取標籤掩碼
labels = upsampled_logits.argmax(dim=1)[0]

# 移動到 CPU 以便在 matplotlib 中可視化
labels_viz = labels.cpu().numpy()
plt.imshow(labels_viz)
plt.show()

基礎用法（瀏覽器 - Transformers.js）

import {
  pipeline,
  env,
} from "https://cdn.jsdelivr.net/npm/@xenova/transformers@2.14.0";

// 重要：防止錯誤，因為模型文件可能在 HF hub 上是遠程的
env.allowLocalModels = false;

// 使用預訓練的人臉解析模型實例化圖像分割管道
model = await pipeline("image-segmentation", "jonathandinu/face-parsing");

// 異步推理，因為可能需要幾秒鐘
const output = await model(url);

// 每個標籤是一個單獨的掩碼對象
// [
//   { score: null, label: 'background', mask: transformers.js RawImage { ... }}
//   { score: null, label: 'hair', mask: transformers.js RawImage { ... }}
//    ...
// ]
for (const m of output) {
  print(`Found ${m.label}`);
  m.mask.save(`${m.label}.png`);
}

高級用法（p5.js）

由於 p5.js 使用動畫循環抽象，我們需要注意加載模型和進行預測。

// ...

// 異步加載 transformers.js 並實例化模型
async function preload() {
  // 使用動態導入加載 transformers.js 庫
  const { pipeline, env } = await import(
    "https://cdn.jsdelivr.net/npm/@xenova/transformers@2.14.0"
  );

  // 重要：防止錯誤，因為模型文件在 HF hub 上是遠程的
  env.allowLocalModels = false;

  // 使用預訓練的人臉解析模型實例化圖像分割管道
  model = await pipeline("image-segmentation", "jonathandinu/face-parsing");

  print("face-parsing 模型已加載");
}

// ...

完整 p5.js 示例

模型信息

屬性	詳情
模型類型	基於 Transformer 的語義分割圖像模型
訓練數據	CelebAMask-HQ 數據集
開發者	Jonathan Dinu
許可證	非商業研究和教育用途
更多信息資源	Transformers Segformer 文檔和原始研究論文