wav2vec2-FR-7K-large開源語音模型 - 基於海量法語語音訓練精準語音識別

首頁

Wav2vec2 FR 7K Large

由LeBenchmark開發

基於7.6K小時法語語音訓練的Large wav2vec2模型，包含自發、朗讀和廣播語音數據

語音識別

Transformers

法語開源協議:Apache-2.0 #法語語音識別 #自監督學習 #多場景語音

下載量 1,091

發布時間 : 3/2/2022

模型概述

LeBenchmark提供的預訓練wav2vec2模型，專注於法語語音處理，可用於語音識別等任務

模型特點

大規模法語訓練數據

基於7.6K小時的法語語音數據訓練，包含多樣化的語音類型

多種模型架構選擇

提供Light、Base、Large和xLarge等多種架構版本

多場景適用

支持自發語音、朗讀語音和廣播語音等多種場景

模型能力

法語語音識別

語音特徵提取

說話人識別

源分離

使用案例

語音處理

法語語音轉文本

將法語語音轉換為文本內容

說話人識別

識別語音中的說話人身份

🚀 LeBenchmark：基於7000小時法語語音訓練的wav2vec2大型模型

LeBenchmark提供了一組在不同法語數據集上預訓練的wav2vec2模型，這些數據集包含自發、朗讀和廣播語音。它有兩個版本，其中，後續版本（LeBenchmark 2.0）在預訓練自監督學習（SSL）模型的數量和下游任務的數量方面都是第一個版本的擴展版本。有關可用於評估wav2vec2模型的不同基準測試的更多信息，請參考我們的論文：LeBenchmark 2.0：用於法語語音自監督表示的標準化、可複製和增強框架

🚀 快速開始

本項目提供了一系列預訓練的wav2vec2模型，可用於多種語音相關任務。你可以根據自己的需求選擇合適的模型進行使用。

✨ 主要特性

提供多種不同架構和訓練數據規模的wav2vec2模型。
模型可在不同語音任務中廣泛複用。
支持使用Fairseq和SpeechBrain進行模型微調。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型和數據描述

我們發佈了四個不同的模型，這些模型可以在我們的HuggingFace組織下找到。四種不同的wav2vec2架構 Light、Base、Large 和 xLarge 與我們的小型（1000小時）、中型（3000小時）、大型（7000小時）和超大型（14000小時）語料庫相結合。簡而言之：

Lebenchmark 2.0

wav2vec2-FR-14K-xlarge：基於14000小時法語語音訓練的xLarge wav2vec2模型（5400名男性 / 2400名女性 / 6800名未知性別）。
wav2vec2-FR-14K-large：基於14000小時法語語音訓練的Large wav2vec2模型（5400名男性 / 2400名女性 / 6800名未知性別）。
wav2vec2-FR-14K-light：基於14000小時法語語音訓練的Light wav2vec2模型（5400名男性 / 2400名女性 / 6800名未知性別）。

Lebenchmark

wav2vec2-FR-7K-large：基於7600小時法語語音訓練的Large wav2vec2模型（1800名男性 / 1000名女性 / 4800名未知性別）。
wav2vec2-FR-7K-base：基於7600小時法語語音訓練的Base wav2vec2模型（1800名男性 / 1000名女性 / 4800名未知性別）。
wav2vec2-FR-3K-large：基於2900小時法語語音訓練的Large wav2vec2模型（1800名男性 / 1000名女性 / 100名未知性別）。
wav2vec2-FR-3K-base：基於2900小時法語語音訓練的Base wav2vec2模型（1800名男性 / 1000名女性 / 100名未知性別）。
wav2vec2-FR-2.6K-base：基於2600小時法語語音訓練的Base wav2vec2模型（無自發語音）。
wav2vec2-FR-1K-large：基於1000小時法語語音訓練的Large wav2vec2模型（500名男性 / 500名女性）。
wav2vec2-FR-1K-base：基於1000小時法語語音訓練的Base wav2vec2模型（500名男性 / 500名女性）。

預期用途和限制

預訓練的wav2vec2模型遵循Apache - 2.0許可證分發。因此，它們可以廣泛複用，沒有嚴格的限制。然而，基準測試和數據可能與未完全開源的語料庫相關聯。

使用Fairseq進行基於CTC的自動語音識別（ASR）微調

由於我們的wav2vec2模型是使用Fairseq訓練的，因此可以使用他們提供的不同工具對模型進行基於CTC的ASR微調。完整的步驟已在這篇博客文章中進行了很好的總結。

請注意，由於CTC的性質，語音轉文本的結果預計不會達到最先進水平。此外，根據Fairseq和HuggingFace在這方面的參與情況，未來可能會出現新的功能。

集成到SpeechBrain進行ASR、說話人識別、源分離等任務

預訓練的wav2vec模型最近越來越受歡迎。與此同時，SpeechBrain工具包問世，它提供了一種新的、更簡單的方法來處理最先進的語音和深度學習技術。

雖然目前SpeechBrain仍處於測試階段，但它提供了兩種很好的方法來集成使用Fairseq訓練的wav2vec2模型，即我們的LeBenchmark模型！

即時提取wav2vec2特徵（使用凍結的wav2vec2編碼器），並與任何語音相關架構相結合。例如：基於CTC + 注意力 + 語言模型的端到端ASR；說話人識別或驗證、源分離等。
實驗性：為了充分利用wav2vec2的優勢，最佳解決方案是在訓練下游任務時對模型進行微調。在SpeechBrain中，只需打開一個標誌即可輕鬆實現。因此，我們的wav2vec2模型可以在訓練你喜歡的ASR管道或說話人識別器時進行微調。

如果感興趣，只需遵循本教程

🔧 技術細節

文檔未提供具體技術實現細節，故跳過此章節。

📄 許可證

預訓練的wav2vec2模型遵循Apache - 2.0許可證分發。

📖 引用LeBenchmark

@misc{parcollet2023lebenchmark,
      title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech}, 
      author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
      year={2023},
      eprint={2309.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}