开源face-parsing模型 - 精准面部解析助力多应用场景语义分割

首页

Face Parsing

由 jonathandinu 开发

基于nvidia/mit-b5微调的语义分割模型，用于面部解析任务

图像分割

Transformers

英语#人脸部件分割 #高精度语义分割 #名人面部解析

下载量 398.59k

发布时间 : 7/6/2022

模型简介

这是一个基于Segformer架构的语义分割模型，专门用于面部解析任务，能够将人脸图像分割为19个不同的语义区域（如皮肤、眼睛、鼻子、嘴唇等）。

模型特点

高精度面部解析

能够精确分割人脸的不同部位，包括皮肤、眼睛、眉毛、嘴唇等19个语义区域

基于Transformer架构

采用Segformer架构，结合了Transformer的优势和高效设计

浏览器兼容

提供ONNX格式，支持在浏览器中使用Transformers.js进行推理

模型能力

面部区域分割

语义分割

图像分析

人脸解析

使用案例

计算机视觉

美颜应用

精确识别面部不同区域，实现针对性美颜效果

可精确应用美颜效果到特定面部区域

虚拟化妆

识别嘴唇、眼睛等区域，实现虚拟化妆效果

可准确将虚拟化妆品应用到正确面部位置

面部特征分析

分析面部不同区域的特征和比例

可用于面部识别、情绪分析等应用

🚀 人脸解析模型

本项目是一个用于人脸解析的语义分割模型，它基于 nvidia/mit-b5 模型，并使用 CelebAMask-HQ 数据集进行微调。该模型可用于将人脸图像分割为不同的语义区域，如皮肤、鼻子、眼睛等。此外，项目还提供了适用于 Python 和浏览器的使用示例，方便开发者集成。

示例图像和输出

语义分割模型从 nvidia/mit-b5 微调而来，使用 CelebAMask-HQ 数据集进行人脸解析。更多选项请参阅 Transformers Segformer 文档。

用于 Web 推理的 ONNX 模型由 Xenova 贡献。

📚 详细文档

标签信息

完整的标签列表可以从 config.json 中提取。

编号	标签	说明
0	background	背景
1	skin	皮肤
2	nose	鼻子
3	eye_g	眼镜
4	l_eye	左眼
5	r_eye	右眼
6	l_brow	左眉毛
7	r_brow	右眉毛
8	l_ear	左耳
9	r_ear	右耳
10	mouth	嘴唇间区域
11	u_lip	上嘴唇
12	l_lip	下嘴唇
13	hair	头发
14	hat	帽子
15	ear_r	耳环
16	neck_l	项链
17	neck	脖子
18	cloth	衣服

💻 使用示例

基础用法（Python）

import torch
from torch import nn
from transformers import SegformerImageProcessor, SegformerForSemanticSegmentation

from PIL import Image
import matplotlib.pyplot as plt
import requests

# 方便自动确定设备
device = (
    "cuda"
    # NVIDIA 或 AMD GPU 设备
    if torch.cuda.is_available()
    else "mps"
    # Apple Silicon (Metal Performance Shaders) 设备
    if torch.backends.mps.is_available()
    else "cpu"
)

# 加载模型
image_processor = SegformerImageProcessor.from_pretrained("jonathandinu/face-parsing")
model = SegformerForSemanticSegmentation.from_pretrained("jonathandinu/face-parsing")
model.to(device)

# 期望输入为 PIL.Image 或 torch.Tensor
url = "https://images.unsplash.com/photo-1539571696357-5a69c17a67c6"
image = Image.open(requests.get(url, stream=True).raw)

# 在图像上运行推理
inputs = image_processor(images=image, return_tensors="pt").to(device)
outputs = model(**inputs)
logits = outputs.logits  # 形状 (batch_size, num_labels, ~height/4, ~width/4)

# 调整输出大小以匹配输入图像尺寸
upsampled_logits = nn.functional.interpolate(logits,
                size=image.size[::-1], # H x W
                mode='bilinear',
                align_corners=False)

# 获取标签掩码
labels = upsampled_logits.argmax(dim=1)[0]

# 移动到 CPU 以便在 matplotlib 中可视化
labels_viz = labels.cpu().numpy()
plt.imshow(labels_viz)
plt.show()

基础用法（浏览器 - Transformers.js）

import {
  pipeline,
  env,
} from "https://cdn.jsdelivr.net/npm/@xenova/transformers@2.14.0";

// 重要：防止错误，因为模型文件可能在 HF hub 上是远程的
env.allowLocalModels = false;

// 使用预训练的人脸解析模型实例化图像分割管道
model = await pipeline("image-segmentation", "jonathandinu/face-parsing");

// 异步推理，因为可能需要几秒钟
const output = await model(url);

// 每个标签是一个单独的掩码对象
// [
//   { score: null, label: 'background', mask: transformers.js RawImage { ... }}
//   { score: null, label: 'hair', mask: transformers.js RawImage { ... }}
//    ...
// ]
for (const m of output) {
  print(`Found ${m.label}`);
  m.mask.save(`${m.label}.png`);
}

高级用法（p5.js）

由于 p5.js 使用动画循环抽象，我们需要注意加载模型和进行预测。

// ...

// 异步加载 transformers.js 并实例化模型
async function preload() {
  // 使用动态导入加载 transformers.js 库
  const { pipeline, env } = await import(
    "https://cdn.jsdelivr.net/npm/@xenova/transformers@2.14.0"
  );

  // 重要：防止错误，因为模型文件在 HF hub 上是远程的
  env.allowLocalModels = false;

  // 使用预训练的人脸解析模型实例化图像分割管道
  model = await pipeline("image-segmentation", "jonathandinu/face-parsing");

  print("face-parsing 模型已加载");
}

// ...

完整 p5.js 示例

模型信息

属性	详情
模型类型	基于 Transformer 的语义分割图像模型
训练数据	CelebAMask-HQ 数据集
开发者	Jonathan Dinu
许可证	非商业研究和教育用途
更多信息资源	Transformers Segformer 文档和原始研究论文