🚀 基于ResNet293的说话人嵌入模型
这是由 Wespeaker 项目提供的官方模型,基于ResNet293的r-向量(经过大间隔微调)。该模型在VoxCeleb2 Dev数据集上进行训练,该数据集包含5994个说话人。
🚀 快速开始
本模型由 Wespeaker 项目提供,基于ResNet293的r-向量(经过大间隔微调)。模型在包含5994个说话人的VoxCeleb2 Dev数据集上训练得到。
✨ 主要特性
- 由Wespeaker项目官方提供,具有较高的可靠性和专业性。
- 基于ResNet293架构,经过大间隔微调,能有效提取说话人特征。
- 在VoxCeleb数据集上有良好的表现。
📦 安装指南
常规安装
pip install git+https://github.com/wenet-e2e/wespeaker.git
开发环境安装
git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .
💻 使用示例
基础用法
命令行使用
$ wespeaker -p resnet293_download_dir --task embedding --audio_file audio.wav --output_file embedding.txt
$ wespeaker -p resnet293_download_dir --task embedding_kaldi --wav_scp wav.scp --output_file /path/to/embedding
$ wespeaker -p resnet293_download_dir --task similarity --audio_file audio.wav --audio_file2 audio2.wav
$ wespeaker -p resnet293_download_dir --task diarization --audio_file audio.wav
Python编程使用
import wespeaker
model = wespeaker.load_model_local(resnet293_download_dir)
model.set_gpu(0)
embedding = model.extract_embedding('audio.wav')
utt_names, embeddings = model.extract_embedding_list('wav.scp')
similarity = model.compute_similarity('audio1.wav', 'audio2.wav')
diar_result = model.diarize('audio.wav')
model.register('spk1', 'spk1_audio1.wav')
model.register('spk2', 'spk2_audio1.wav')
model.register('spk3', 'spk3_audio1.wav')
result = model.recognize('spk1_audio2.wav')
📚 详细文档
模型来源
- 仓库地址:https://github.com/wenet-e2e/wespeaker
- 论文地址:https://arxiv.org/pdf/2210.17016.pdf
- 演示地址:https://huggingface.co/spaces/wenet/wespeaker_demo
VoxCeleb数据集上的结果
模型 |
参数数量 |
浮点运算次数 |
大间隔微调 |
自适应标准化 |
vox1-O-clean |
vox1-E-clean |
vox1-H-clean |
ResNet293-TSTP-emb256 |
28.62M |
28.10G |
× |
× |
0.595 |
0.756 |
1.433 |
|
|
|
× |
√ |
0.537 |
0.701 |
1.276 |
|
|
|
√ |
× |
0.532 |
0.707 |
1.311 |
|
|
|
√ |
√ |
0.447 |
0.657 |
1.183 |
📄 许可证
本模型采用CC BY 4.0许可证。
📚 引用信息
@inproceedings{wang2023wespeaker,
title={Wespeaker: A research and production oriented speaker embedding learning toolkit},
author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}