W

Wav2vec2 Large Superb Sid

由superb開發
基於 Wav2Vec2-Large 架構的說話人識別模型,在 VoxCeleb1 數據集上訓練,用於將語音按說話人身份分類
下載量 27
發布時間 : 3/2/2022

模型概述

該模型是一個用於說話人識別的音頻分類模型,基於 Facebook 的 wav2vec2-large-lv60 模型微調而來,能夠識別不同說話人的語音特徵並進行分類。

模型特點

高準確率
在 VoxCeleb1 測試集上達到 86.13% 的準確率
基於 Wav2Vec2 預訓練模型
利用 wav2vec2-large-lv60 的強大語音表示能力進行微調
16kHz 語音支持
專門針對 16kHz 採樣的語音音頻優化

模型能力

說話人識別
語音分類
音頻特徵提取

使用案例

安全認證
語音身份驗證
通過語音識別用戶身份進行安全認證
語音分析
會議記錄分析
識別會議錄音中不同發言人的語音片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase