S

Spkrec Xvect Voxceleb

由speechbrain開發
這是一個使用SpeechBrain預訓練的TDNN模型,用於提取說話人嵌入向量,主要應用於說話人驗證和識別任務。
下載量 27.68k
發布時間 : 3/2/2022

模型概述

該系統由TDNN模型結合統計池化組成,使用分類交叉熵損失進行訓練,能夠從音頻中提取說話人的特徵嵌入向量。

模型特點

高效的說話人嵌入提取
能夠快速準確地從音頻中提取說話人的特徵嵌入向量。
基於VoxCeleb數據集訓練
使用大眾名人1+大眾名人2的訓練數據進行訓練,具有較高的識別準確率。
自動音頻預處理
自動對輸入音頻進行標準化處理,包括重採樣和單聲道選擇。

模型能力

說話人驗證
說話人識別
音頻特徵提取

使用案例

安全認證
語音身份驗證
用於電話銀行或其他需要語音身份驗證的場景。
在VoxCeleb1測試集(清洗版)上達到3.2%的等錯誤率(EER)。
智能設備
個性化語音助手
為不同用戶提供個性化的語音助手服務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase