WavLM-large開源語音模型 - 免費支持全棧語音處理任務

Wavlm Large

由microsoft開發

WavLM是微軟開發的大規模自監督語音預訓練模型，支持全棧語音處理任務，在SUPERB基準測試中表現優異。

下載量 396.53k

發布時間 : 3/2/2022

模型概述

基於16kHz採樣語音音頻數據構建的預訓練模型，通過創新架構設計實現語音內容建模與說話人特徵保持，適用於多種語音處理任務。

全棧語音處理

通過統一架構支持多種語音任務，包括語音識別、說話人識別等

大規模預訓練

使用9.4萬小時英語語音數據訓練，覆蓋Libri-Light、GigaSpeech和VoxPopuli數據集

創新訓練策略

採用無監督語音混合訓練策略增強說話人區分度

高性能表現

在SUPERB基準測試中達到最優性能

語音特徵提取

說話人識別

語音內容理解

音頻分類

語音識別

英語語音轉文本

將英語語音轉換為文本內容

需微調後使用

說話人識別

說話人驗證

識別語音中的說話人身份

音頻分析

音頻分類

對音頻內容進行分類識別

WavLM-Large是一個在16kHz採樣的語音音頻上預訓練的大型模型。它為語音處理任務提供了強大的基礎能力，可用於語音識別、音頻分類等多種下游任務。

WavLM-Large是由微軟開發的模型，你可以通過此鏈接查看相關信息。使用該模型時，請確保你的語音輸入也是以16kHz採樣的。

此模型僅在音頻上進行了預訓練，因此沒有分詞器。若要將此模型用於語音識別，則需要創建一個分詞器，並在帶標籤的文本數據上對模型進行微調。你可以查看這篇博客，以獲取關於如何微調該模型的詳細解釋。

多數據集預訓練：模型在多個大規模數據集上進行了預訓練，包括60,000小時的Libri-Light、10,000小時的GigaSpeech和24,000小時的VoxPopuli。
優秀的性能表現：在SUPERB基準測試中表現出色，能為各種語音處理任務帶來顯著的性能提升。

標題：WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者：Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei
摘要：自監督學習（SSL）在語音識別領域取得了巨大成功，但在其他語音處理任務上的探索有限。由於語音信號包含多方面信息，如說話人身份、副語言特徵、語音內容等，為所有語音任務學習通用表示具有挑戰性。在本文中，我們提出了一種新的預訓練模型WavLM，以解決全棧下游語音任務。WavLM基於HuBERT框架構建，強調語音內容建模和說話人身份保留。我們首先為Transformer結構配備門控相對位置偏置，以提高其在識別任務上的能力。為了更好地區分說話人，我們提出了一種話語混合訓練策略，在模型訓練期間無監督地創建額外的重疊話語並將其納入訓練。最後，我們將訓練數據集從60k小時擴展到94k小時。WavLM Large在SUPERB基準測試中達到了最先進的性能，並在各種語音處理任務的代表性基準測試中帶來了顯著的改進。