WavLM-base-plus開源語音模型 - 免費部署助力多種語音處理任務

首頁

Wavlm Base Plus

由microsoft開發

WavLM是由微軟開發的大規模自監督預訓練語音模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種語音處理任務。

語音識別

Transformers

英語#全棧語音處理 #自監督預訓練 #說話人保留

下載量 673.32k

發布時間 : 3/2/2022

模型概述

WavLM是一個基於HuBERT框架構建的預訓練語音模型，專注於語音內容建模和說話人身份保留。該模型在SUPERB基準測試中表現優異，適用於語音識別、語音分類等多種下游任務。

模型特點

大規模預訓練

模型在6萬小時Libri-Light、1萬小時GigaSpeech和2.4萬小時VoxPopuli數據集上進行預訓練。

全棧語音處理

優化了語音內容建模和說話人身份保留，適用於多種語音處理任務。

話語混合訓練

採用無監督生成重疊話語的訓練策略，增強說話人區分度。

模型能力

語音識別

語音分類

說話人驗證

說話人日誌

使用案例

語音識別

英語語音轉文本

將英語語音轉換為文本內容。

在SUPERB基準測試中達到最先進水平

語音分類

情感分析

通過語音分析說話人的情感狀態。

🚀 WavLM-Base-Plus

WavLM-Base-Plus是一個在16kHz採樣的語音音頻上預訓練的基礎模型。該模型由微軟開發，可用於解決全棧下游語音任務。使用此模型時，請確保輸入的語音也採樣為16kHz。

🚀 快速開始

本模型是一個英文預訓練語音模型，在用於推理之前，需要在語音識別或音頻分類等下游任務上進行微調。該模型以英文進行預訓練，因此僅在英文場景下表現良好，且已在SUPERB基準測試中展現出良好的效果。

✨ 主要特性

多數據集預訓練：模型在多個大規模語音數據集上進行了預訓練，包括60,000小時的Libri-Light、10,000小時的GigaSpeech和24,000小時的VoxPopuli。
解決全棧語音任務：基於HuBERT框架構建，強調語音內容建模和說話人身份保留，可解決全棧下游語音任務。
創新訓練策略：採用門控相對位置偏置改進Transformer結構，提升識別任務能力；提出話語混合訓練策略，增強說話人辨別能力。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

語音識別

要對模型進行語音識別微調，請參考官方語音識別示例。

語音分類

要對模型進行語音分類微調，請參考官方音頻分類示例。

說話人驗證

文檔未提及相關內容，暫不提供。

說話人分割

文檔未提及相關內容，暫不提供。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於Transformer架構的語音預訓練模型
訓練數據	60,000小時的Libri-Light、10,000小時的GigaSpeech和24,000小時的VoxPopuli

論文信息

標題：WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者：Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei
摘要：自監督學習（SSL）在語音識別中取得了巨大成功，但在其他語音處理任務上的探索有限。由於語音信號包含說話人身份、副語言、語音內容等多方面信息，為所有語音任務學習通用表示具有挑戰性。在本文中，我們提出了一種新的預訓練模型WavLM，以解決全棧下游語音任務。WavLM基於HuBERT框架構建，強調語音內容建模和說話人身份保留。我們首先為Transformer結構配備門控相對位置偏置，以提高其在識別任務上的能力。為了更好地進行說話人辨別，我們提出了一種話語混合訓練策略，在模型訓練期間無監督地創建額外的重疊話語並將其納入訓練。最後，我們將訓練數據集從60k小時擴展到94k小時。WavLM Large在SUPERB基準測試中取得了最先進的性能，並在各種語音處理任務的代表性基準測試中帶來了顯著改進。