W

Wavlm Base Plus

由microsoft開發
WavLM是由微軟開發的大規模自監督預訓練語音模型,基於16kHz採樣的語音音頻進行預訓練,適用於多種語音處理任務。
下載量 673.32k
發布時間 : 3/2/2022

模型概述

WavLM是一個基於HuBERT框架構建的預訓練語音模型,專注於語音內容建模和說話人身份保留。該模型在SUPERB基準測試中表現優異,適用於語音識別、語音分類等多種下游任務。

模型特點

大規模預訓練
模型在6萬小時Libri-Light、1萬小時GigaSpeech和2.4萬小時VoxPopuli數據集上進行預訓練。
全棧語音處理
優化了語音內容建模和說話人身份保留,適用於多種語音處理任務。
話語混合訓練
採用無監督生成重疊話語的訓練策略,增強說話人區分度。

模型能力

語音識別
語音分類
說話人驗證
說話人日誌

使用案例

語音識別
英語語音轉文本
將英語語音轉換為文本內容。
在SUPERB基準測試中達到最先進水平
語音分類
情感分析
通過語音分析說話人的情感狀態。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase