W

Wavlm Large

由microsoft開發
WavLM是微軟開發的大規模自監督語音預訓練模型,支持全棧語音處理任務,在SUPERB基準測試中表現優異。
下載量 396.53k
發布時間 : 3/2/2022

模型概述

基於16kHz採樣語音音頻數據構建的預訓練模型,通過創新架構設計實現語音內容建模與說話人特徵保持,適用於多種語音處理任務。

模型特點

全棧語音處理
通過統一架構支持多種語音任務,包括語音識別、說話人識別等
大規模預訓練
使用9.4萬小時英語語音數據訓練,覆蓋Libri-Light、GigaSpeech和VoxPopuli數據集
創新訓練策略
採用無監督語音混合訓練策略增強說話人區分度
高性能表現
在SUPERB基準測試中達到最優性能

模型能力

語音特徵提取
說話人識別
語音內容理解
音頻分類

使用案例

語音識別
英語語音轉文本
將英語語音轉換為文本內容
需微調後使用
說話人識別
說話人驗證
識別語音中的說話人身份
音頻分析
音頻分類
對音頻內容進行分類識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase