wespeaker-voxceleb-resnet34-LM開源說話人模型

首頁

Wespeaker Voxceleb Resnet34 LM

由Wespeaker開發

基於ResNet34架構的說話人嵌入模型，經過大間隔微調，在VoxCeleb2數據集上訓練，支持說話人識別和相似度計算等任務。

說話人處理英語#說話人識別 #大間隔微調 #語音嵌入

下載量 33

發布時間 : 2/26/2024

模型概述

該模型用於提取說話人特徵嵌入，支持說話人識別、相似度計算和語音分割等任務。

模型特點

大間隔微調

模型經過大間隔微調，提高了說話人識別的準確率。

高效推理

模型參數量適中，計算量為4.55G，適合實際應用部署。

多功能支持

支持說話人嵌入提取、相似度計算、語音分割等多種任務。

模型能力

說話人特徵提取

說話人相似度計算

語音分割

說話人識別

說話人註冊與驗證

使用案例

安全認證

聲紋識別系統

用於身份驗證的聲紋識別系統

在VoxCeleb測試集上達到0.723的EER（等錯誤率）

語音分析

會議語音分割

自動分割會議錄音中不同說話人的片段

🚀 說話人嵌入模型（基於ResNet34的r-vector）

這是由 Wespeaker 項目提供的官方模型，基於ResNet34的r-vector（經過大間隔微調）。該模型可用於說話人嵌入和說話人建模，解決說話人識別等相關問題，為語音處理領域提供了有效的技術支持。

🚀 快速開始

本模型是基於ResNet34的r-vector模型，經過大間隔微調，由 Wespeaker 項目官方提供。它在VoxCeleb2 Dev數據集上進行訓練，該數據集包含5994個說話人。

✨ 主要特性

由知名的 Wespeaker 項目提供，具有較高的可靠性和專業性。
基於ResNet34架構，經過大間隔微調，在說話人識別任務中可能具有更好的性能。
在包含5994個說話人的VoxCeleb2 Dev數據集上進行訓練，數據豐富。

📦 安裝指南

常規安裝

pip install git+https://github.com/wenet-e2e/wespeaker.git

開發環境安裝

git clone https://github.com/wenet-e2e/wespeaker.git
cd wespeaker
pip install -e .

💻 使用示例

基礎用法

命令行使用

$ wespeaker -p ResNet34_download_dir --task embedding --audio_file audio.wav --output_file embedding.txt
$ wespeaker -p ResNet34_download_dir --task embedding_kaldi --wav_scp wav.scp --output_file /path/to/embedding
$ wespeaker -p ResNet34_download_dir --task similarity --audio_file audio.wav --audio_file2 audio2.wav
$ wespeaker -p ResNet34_download_dir --task diarization --audio_file audio.wav

Python編程使用

import wespeaker

model = wespeaker.load_model_local(ResNet34_download_dir)
# set_gpu to enable the cuda inference, number < 0 means using CPU
model.set_gpu(0)

# embedding/embedding_kaldi/similarity/diarization
embedding = model.extract_embedding('audio.wav')
utt_names, embeddings = model.extract_embedding_list('wav.scp')
similarity = model.compute_similarity('audio1.wav', 'audio2.wav')
diar_result = model.diarize('audio.wav')

# register and recognize
model.register('spk1', 'spk1_audio1.wav')
model.register('spk2', 'spk2_audio1.wav')
model.register('spk3', 'spk3_audio1.wav')
result = model.recognize('spk1_audio2.wav')

📚 詳細文檔

模型來源

倉庫地址：https://github.com/wenet-e2e/wespeaker
相關論文：https://arxiv.org/pdf/2210.17016.pdf
演示地址：https://huggingface.co/spaces/wenet/wespeaker_demo

VoxCeleb數據集上的結果

模型	參數數量	浮點運算次數	大間隔微調	自適應標準化	vox1 - O - clean	vox1 - E - clean	vox1 - H - clean
ResNet34 - TSTP - emb256	663萬	4.55G	×	×	0.867	1.049	1.959
			×	√	0.787	0.964	1.726
			√	×	0.797	0.937	1.695
			√	√	0.723	0.867	1.532

📄 許可證

本模型採用CC - BY - 4.0許可證。

📖 引用

@article{zeinali2019rvector,
  title={But system description to voxceleb speaker recognition challenge 2019},
  author={Zeinali, Hossein and Wang, Shuai and Silnova, Anna and Mat{\v{e}}jka, Pavel and Plchot, Old{\v{r}}ich},
  journal={arXiv preprint arXiv:1910.12592},
  year={2019}
}

@inproceedings{wang2023wespeaker,
  title={Wespeaker: A research and production oriented speaker embedding learning toolkit},
  author={Wang, Hongji and Liang, Chengdong and Wang, Shuai and Chen, Zhengyang and Zhang, Binbin and Xiang, Xu and Deng, Yanlei and Qian, Yanmin},
  booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}