wav2vec2-base-superb-sid开源说话人识别模型

首页

Wav2vec2 Base Superb Sid

由 superb 开发

基于Wav2Vec2-base预训练模型，在VoxCeleb1数据集上微调的说话人识别模型，用于语音分类任务

说话人处理

Transformers

英语开源协议:Apache-2.0 #说话人识别 #16kHz音频处理 #VoxCeleb1数据集

下载量 1,489

发布时间 : 3/2/2022

模型简介

该模型是S3PRL的Wav2Vec2在SUPERB说话人识别任务的移植版本，能够将每段语音按其说话人身份进行多分类

模型特点

基于Wav2Vec2预训练模型

使用facebook/wav2vec2-base作为基础模型，该模型基于16kHz采样的语音音频进行预训练

VoxCeleb1数据集微调

在广泛使用的VoxCeleb1数据集上进行微调，适用于说话人识别任务

高准确率

在测试集上达到75.18%的准确率

模型能力

说话人识别

语音分类

音频特征提取

使用案例

安全验证

声纹识别系统

用于身份验证系统的说话人识别

可识别特定说话人身份

语音分析

会议记录分析

识别会议录音中不同发言人的语音片段

自动区分不同说话人

🚀 Wav2Vec2-Base 用于说话人识别

本模型用于说话人识别任务，基于预训练的 wav2vec2-base 模型，能对语音进行分类以识别说话人身份，在相关数据集上有较好的表现。

🚀 快速开始

你可以通过以下两种方式使用该模型：

方式一：使用音频分类管道

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("anton-l/superb_demo", "si", split="test")

classifier = pipeline("audio-classification", model="superb/wav2vec2-base-superb-sid")
labels = classifier(dataset[0]["file"], top_k=5)

方式二：直接使用模型

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor

def map_to_array(example):
    speech, _ = librosa.load(example["file"], sr=16000, mono=True)
    example["speech"] = speech
    return example

# load a demo dataset and read audio files
dataset = load_dataset("anton-l/superb_demo", "si", split="test")
dataset = dataset.map(map_to_array)

model = Wav2Vec2ForSequenceClassification.from_pretrained("superb/wav2vec2-base-superb-sid")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("superb/wav2vec2-base-superb-sid")

# compute attention masks and normalize the waveform if needed
inputs = feature_extractor(dataset[:2]["speech"], sampling_rate=16000, padding=True, return_tensors="pt")

logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
labels = [model.config.id2label[_id] for _id in predicted_ids.tolist()]

✨ 主要特性

本模型是 S3PRL 的 Wav2Vec2 用于 SUPERB 说话人识别任务的移植版本。
基础模型是 wav2vec2-base，在 16kHz 采样的语音音频上进行了预训练。使用模型时，请确保输入的语音也采样为 16kHz。
说话人识别（SI）将每个话语的说话人身份作为多类分类进行分类，训练和测试的说话人都在同一预定义集合中，采用了广泛使用的 VoxCeleb1 数据集。

📦 安装指南

文档未提及安装步骤，可参考相关库（如 datasets、transformers、torch、librosa 等）的官方安装说明进行安装。

💻 使用示例

基础用法

你可以使用音频分类管道来使用该模型：

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("anton-l/superb_demo", "si", split="test")

classifier = pipeline("audio-classification", model="superb/wav2vec2-base-superb-sid")
labels = classifier(dataset[0]["file"], top_k=5)

高级用法

直接使用模型进行推理：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor

def map_to_array(example):
    speech, _ = librosa.load(example["file"], sr=16000, mono=True)
    example["speech"] = speech
    return example

# load a demo dataset and read audio files
dataset = load_dataset("anton-l/superb_demo", "si", split="test")
dataset = dataset.map(map_to_array)

model = Wav2Vec2ForSequenceClassification.from_pretrained("superb/wav2vec2-base-superb-sid")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("superb/wav2vec2-base-superb-sid")

# compute attention masks and normalize the waveform if needed
inputs = feature_extractor(dataset[:2]["speech"], sampling_rate=16000, padding=True, return_tensors="pt")

logits = model(**inputs).logits
predicted_ids = torch.argmax(logits, dim=-1)
labels = [model.config.id2label[_id] for _id in predicted_ids.tolist()]

📚 详细文档

对于模型描述，更多信息请参考 SUPERB: Speech processing Universal PERformance Benchmark。
对于原始模型的训练和评估说明，请参考 S3PRL 下游任务 README。

🔧 技术细节

文档未提及详细的技术实现细节。

📄 许可证

本模型使用的许可证为 Apache-2.0。

BibTeX 引用和引用信息

@article{yang2021superb,
  title={SUPERB: Speech processing Universal PERformance Benchmark},
  author={Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y and Liu, Andy T and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and others},
  journal={arXiv preprint arXiv:2105.01051},
  year={2021}
}