wespeaker-voxceleb-resnet34-LM开源说话人模型

首页

Wespeaker Voxceleb Resnet34 LM

由 Wespeaker 开发

基于ResNet34架构的说话人嵌入模型，经过大间隔微调，在VoxCeleb2数据集上训练，支持说话人识别和相似度计算等任务。

说话人处理英语#说话人识别 #大间隔微调 #语音嵌入

下载量 33

发布时间 : 2/26/2024

模型简介

该模型用于提取说话人特征嵌入，支持说话人识别、相似度计算和语音分割等任务。

模型特点

大间隔微调

模型经过大间隔微调，提高了说话人识别的准确率。

高效推理

模型参数量适中，计算量为4.55G，适合实际应用部署。

多功能支持

支持说话人嵌入提取、相似度计算、语音分割等多种任务。

模型能力

说话人特征提取

说话人相似度计算

语音分割

说话人识别

说话人注册与验证

使用案例

安全认证

声纹识别系统

用于身份验证的声纹识别系统

在VoxCeleb测试集上达到0.723的EER（等错误率）

语音分析

会议语音分割

自动分割会议录音中不同说话人的片段

🚀 说话人嵌入模型（基于ResNet34的r-vector）

这是由 Wespeaker 项目提供的官方模型，基于ResNet34的r-vector（经过大间隔微调）。该模型可用于说话人嵌入和说话人建模，解决说话人识别等相关问题，为语音处理领域提供了有效的技术支持。

🚀 快速开始

本模型是基于ResNet34的r-vector模型，经过大间隔微调，由 Wespeaker 项目官方提供。它在VoxCeleb2 Dev数据集上进行训练，该数据集包含5994个说话人。

✨ 主要特性

由知名的 Wespeaker 项目提供，具有较高的可靠性和专业性。
基于ResNet34架构，经过大间隔微调，在说话人识别任务中可能具有更好的性能。
在包含5994个说话人的VoxCeleb2 Dev数据集上进行训练，数据丰富。

📦 安装指南

常规安装

pip install git+https://github.com/wenet-e2e/wespeaker.git

开发环境安装

git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .

💻 使用示例

基础用法

命令行使用

$ wespeaker -p ResNet34_download_dir --task embedding --audio_file audio.wav --output_file embedding.txt
$ wespeaker -p ResNet34_download_dir --task embedding_kaldi --wav_scp wav.scp --output_file /path/to/embedding
$ wespeaker -p ResNet34_download_dir --task similarity --audio_file audio.wav --audio_file2 audio2.wav
$ wespeaker -p ResNet34_download_dir --task diarization --audio_file audio.wav

Python编程使用

import wespeaker

model = wespeaker.load_model_local(ResNet34_download_dir)
# set_gpu to enable the cuda inference, number < 0 means using CPU
model.set_gpu(0)

# embedding/embedding_kaldi/similarity/diarization
embedding = model.extract_embedding('audio.wav')
utt_names, embeddings = model.extract_embedding_list('wav.scp')
similarity = model.compute_similarity('audio1.wav', 'audio2.wav')
diar_result = model.diarize('audio.wav')

# register and recognize
model.register('spk1', 'spk1_audio1.wav')
model.register('spk2', 'spk2_audio1.wav')
model.register('spk3', 'spk3_audio1.wav')
result = model.recognize('spk1_audio2.wav')

📚 详细文档

模型来源

仓库地址：https://github.com/wenet-e2e/wespeaker
相关论文：https://arxiv.org/pdf/2210.17016.pdf
演示地址：https://huggingface.co/spaces/wenet/wespeaker_demo

VoxCeleb数据集上的结果

模型	参数数量	浮点运算次数	大间隔微调	自适应标准化	vox1 - O - clean	vox1 - E - clean	vox1 - H - clean
ResNet34 - TSTP - emb256	663万	4.55G	×	×	0.867	1.049	1.959
			×	√	0.787	0.964	1.726
			√	×	0.797	0.937	1.695
			√	√	0.723	0.867	1.532

📄 许可证

本模型采用CC - BY - 4.0许可证。

📖 引用

@article{zeinali2019rvector,
  title={But system description to voxceleb speaker recognition challenge 2019},
  author={Zeinali, Hossein and Wang, Shuai and Silnova, Anna and Mat{\v{e}}jka, Pavel and Plchot, Old{\v{r}}ich},
  journal={arXiv preprint arXiv:1910.12592},
  year={2019}
}

@inproceedings{wang2023wespeaker,
  title={Wespeaker: A research and production oriented speaker embedding learning toolkit},
  author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
  booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}