Hubert-xlarge-ll60k開源語音模型 - 免費實現語音聲學與語言聯合表徵學習

首頁

Hubert Xlarge Ll60k

由facebook開發

Hubert是一個基於自監督學習的語音表徵模型，通過類BERT的預測損失學習語音的聲學和語言聯合表徵。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督語音表徵 #16kHz音頻處理 #多任務微調適配

下載量 3,874

發布時間 : 3/2/2022

模型概述

該模型基於16kHz採樣的語音音頻進行預訓練，適用於多種下游語音任務，如自動語音識別、說話人識別等。

模型特點

自監督學習

通過類BERT的預測損失學習語音表徵，無需大量標註數據。

多輪聚類迭代

採用兩輪聚類迭代優化模型性能，提升表徵質量。

聯合表徵學習

同時學習聲學和語言模型的聯合表徵，提升下游任務表現。

模型能力

語音表徵提取

自動語音識別

說話人識別

意圖分類

情感識別

使用案例

語音處理

自動語音識別

將語音轉換為文本

在Librispeech和Libri-light基準測試中達到或超越wav2vec 2.0的性能

說話人識別

識別語音中的說話人身份

🚀 Hubert-Extra-Large

Hubert-Extra-Large 是一個在 16kHz 採樣語音音頻上預訓練的超大模型。該模型可用於解決語音識別、說話人識別、意圖分類、情感識別等下游任務。使用時，請確保輸入的語音也以 16kHz 採樣。

🚀 快速開始

本模型基於 Facebook 的 Hubert 開發，在 Libri-Light 數據集上進行了預訓練。你可以參考這篇博客瞭解如何微調該模型。注意，需要將 Wav2Vec2ForCTC 類替換為 HubertForCTC。

✨ 主要特性

預訓練規模大：在 16kHz 採樣的語音音頻上進行預訓練，適用於多種語音相關的下游任務。
解決語音學習難題：該模型提出的 Hidden-Unit BERT (HuBERT) 方法，有效解決了自監督語音表示學習中的三個獨特問題：輸入話語中的多個聲音單元、預訓練階段缺乏輸入聲音單元的詞典，以及聲音單元長度可變且無明確分割。
性能出色：在 Librispeech (960h) 和 Libri-light (60,000h) 基準測試中，使用 10 分鐘、1 小時、10 小時、100 小時和 960 小時的微調子集，HuBERT 模型的性能與最先進的 wav2vec 2.0 相當或更優。使用 10 億參數模型時，在更具挑戰性的 dev-other 和 test-other 評估子集上，相對字錯誤率 (WER) 分別降低了 19% 和 13%。

📚 詳細文檔

論文信息

論文鏈接：Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
作者：Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed

摘要

自監督語音表示學習方法面臨三個獨特問題：(1) 每個輸入話語中有多個聲音單元；(2) 預訓練階段沒有輸入聲音單元的詞典；(3) 聲音單元長度可變且無明確分割。為解決這三個問題，我們提出了用於自監督語音表示學習的 Hidden-Unit BERT (HuBERT) 方法，該方法利用離線聚類步驟為類似 BERT 的預測損失提供對齊的目標標籤。我們方法的一個關鍵要素是僅在掩碼區域應用預測損失，這迫使模型在連續輸入上學習組合的聲學和語言模型。HuBERT 主要依賴無監督聚類步驟的一致性，而不是分配的聚類標籤的內在質量。從一個簡單的 100 個聚類的 k-means 教師開始，並使用兩輪聚類，HuBERT 模型在 Librispeech (960h) 和 Libri-light (60,000h) 基準測試中，使用 10 分鐘、1 小時、10 小時、100 小時和 960 小時的微調子集，其性能與最先進的 wav2vec 2.0 相當或更優。使用 10 億參數模型時，HuBERT 在更具挑戰性的 dev-other 和 test-other 評估子集上，相對字錯誤率 (WER) 分別降低了 19% 和 13%。