WavLM-base開源語音模型 - 免費部署，適用於全棧語音處理任務

Home

Wavlm Base

Developed by microsoft

WavLM是微軟開發的大規模自監督預訓練語音模型，基於16kHz採樣的語音音頻進行預訓練，適用於全棧語音處理任務。

語音識別

Transformers

English#全棧語音處理 #自監督預訓練 #說話人保留

Downloads 28.33k

Release Time : 3/2/2022

Model Overview

WavLM是一個基於HuBERT框架構建的預訓練語音模型，專注於口語內容建模和說話人身份保留。該模型在SUPERB基準測試中表現優異，適用於語音識別、語音分類等多種語音處理任務。

Model Features

全棧語音處理

設計用於支持多種語音處理任務，包括語音識別、語音分類、說話人驗證等

大規模預訓練

基於960小時的Librispeech數據預訓練，擴展訓練數據集至9.4萬小時

說話人身份保留

通過話語混合訓練策略，有效區分說話人身份

改進的Transformer結構

配備門控相對位置偏置，提升識別任務能力

Model Capabilities

語音表示學習

語音識別（需微調）

語音分類（需微調）

說話人驗證（需微調）

說話人日誌（需微調）

Use Cases

語音識別

英文語音轉錄

將英文語音轉換為文本

需在標註文本數據上微調後使用

語音分類

情感識別

識別語音中的情感狀態

需在標註數據上微調後使用

說話人識別

說話人驗證

驗證語音中的說話人身份

需在特定數據集上微調後使用

🚀 WavLM-Base

WavLM-Base是基於16kHz採樣語音音頻預訓練的基礎模型。該模型可用於語音相關任務，使用時需確保輸入語音也為16kHz採樣。

🚀 快速開始

WavLM是由微軟開發的語音預訓練模型，基於16kHz採樣的語音音頻進行預訓練。使用該模型時，請確保輸入的語音數據同樣為16kHz採樣。

✨ 主要特性

預訓練基礎：在960小時的 Librispeech 數據集上進行預訓練。
多任務潛力：旨在解決全棧下游語音任務，包括語音識別、語音分類等。
技術創新：基於HuBERT框架構建，採用門控相對位置偏置改進Transformer結構，提出話語混合訓練策略提升說話人區分能力。

📚 詳細文檔

模型信息

模型鏈接：Microsoft's WavLM
論文鏈接：Paper: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者：Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei

論文摘要

自監督學習（SSL）在語音識別領域取得了巨大成功，但在其他語音處理任務上的探索有限。由於語音信號包含說話人身份、副語言信息、說話內容等多方面信息，為所有語音任務學習通用表示具有挑戰性。在本文中，我們提出了一種新的預訓練模型WavLM，用於解決全棧下游語音任務。WavLM基於HuBERT框架構建，強調說話內容建模和說話人身份保留。我們首先為Transformer結構配備門控相對位置偏置，以提高其在識別任務上的能力。為了更好地進行說話人區分，我們提出了一種話語混合訓練策略，在模型訓練期間無監督地創建額外的重疊話語並納入其中。最後，我們將訓練數據集從60k小時擴展到94k小時。WavLM Large在SUPERB基準測試中取得了最先進的性能，並在各種語音處理任務的代表性基準測試中帶來了顯著改進。