W

Wespeaker Voxceleb Resnet293 LM

由Wespeaker開發
基於ResNet293架構的說話人嵌入模型,經過大間隔微調優化,支持說話人識別、相似度計算和語音分割等任務
下載量 108
發布時間 : 12/28/2023

模型概述

該模型由Wespeaker項目提供,採用ResNet293架構並經過大間隔微調優化,主要用於說話人識別和語音處理任務。在VoxCeleb2開發數據集上訓練,包含5994名說話人。

模型特點

大間隔微調優化
採用大間隔微調技術優化模型性能,顯著提升說話人識別準確率
高效架構
基於ResNet293架構,在保持高性能的同時控制計算量
多任務支持
支持說話人嵌入提取、相似度計算和語音分割等多種任務

模型能力

說話人識別
說話人相似度計算
語音分割
說話人註冊與識別

使用案例

語音生物識別
說話人驗證
驗證音頻樣本是否屬於特定說話人
在VoxCeleb測試集上EER為0.447
語音分析
會議語音分割
識別和分割會議錄音中的不同說話人
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase