🚀 說話人嵌入模型(基於ResNet34的r-vector)
這是由 Wespeaker 項目提供的官方模型,基於ResNet34的r-vector(經過大間隔微調)。該模型可用於說話人嵌入和說話人建模,解決說話人識別等相關問題,為語音處理領域提供了有效的技術支持。
🚀 快速開始
本模型是基於ResNet34的r-vector模型,經過大間隔微調,由 Wespeaker 項目官方提供。它在VoxCeleb2 Dev數據集上進行訓練,該數據集包含5994個說話人。
✨ 主要特性
- 由知名的 Wespeaker 項目提供,具有較高的可靠性和專業性。
- 基於ResNet34架構,經過大間隔微調,在說話人識別任務中可能具有更好的性能。
- 在包含5994個說話人的VoxCeleb2 Dev數據集上進行訓練,數據豐富。
📦 安裝指南
常規安裝
pip install git+https://github.com/wenet-e2e/wespeaker.git
開發環境安裝
git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .
💻 使用示例
基礎用法
命令行使用
$ wespeaker -p ResNet34_download_dir --task embedding --audio_file audio.wav --output_file embedding.txt
$ wespeaker -p ResNet34_download_dir --task embedding_kaldi --wav_scp wav.scp --output_file /path/to/embedding
$ wespeaker -p ResNet34_download_dir --task similarity --audio_file audio.wav --audio_file2 audio2.wav
$ wespeaker -p ResNet34_download_dir --task diarization --audio_file audio.wav
Python編程使用
import wespeaker
model = wespeaker.load_model_local(ResNet34_download_dir)
model.set_gpu(0)
embedding = model.extract_embedding('audio.wav')
utt_names, embeddings = model.extract_embedding_list('wav.scp')
similarity = model.compute_similarity('audio1.wav', 'audio2.wav')
diar_result = model.diarize('audio.wav')
model.register('spk1', 'spk1_audio1.wav')
model.register('spk2', 'spk2_audio1.wav')
model.register('spk3', 'spk3_audio1.wav')
result = model.recognize('spk1_audio2.wav')
📚 詳細文檔
模型來源
- 倉庫地址:https://github.com/wenet-e2e/wespeaker
- 相關論文:https://arxiv.org/pdf/2210.17016.pdf
- 演示地址:https://huggingface.co/spaces/wenet/wespeaker_demo
VoxCeleb數據集上的結果
模型 |
參數數量 |
浮點運算次數 |
大間隔微調 |
自適應標準化 |
vox1 - O - clean |
vox1 - E - clean |
vox1 - H - clean |
ResNet34 - TSTP - emb256 |
663萬 |
4.55G |
× |
× |
0.867 |
1.049 |
1.959 |
|
|
|
× |
√ |
0.787 |
0.964 |
1.726 |
|
|
|
√ |
× |
0.797 |
0.937 |
1.695 |
|
|
|
√ |
√ |
0.723 |
0.867 |
1.532 |
📄 許可證
本模型採用CC - BY - 4.0許可證。
📖 引用
@article{zeinali2019rvector,
title={But system description to voxceleb speaker recognition challenge 2019},
author={Zeinali, Hossein and Wang, Shuai and Silnova, Anna and Mat{\v{e}}jka, Pavel and Plchot, Old{\v{r}}ich},
journal={arXiv preprint arXiv:1910.12592},
year={2019}
}
@inproceedings{wang2023wespeaker,
title={Wespeaker: A research and production oriented speaker embedding learning toolkit},
author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}