wav2vec2-FR-1K-base開源語音模型 - 免費部署助力法語語音識別

首頁

Wav2vec2 FR 1K Base

由LeBenchmark開發

基於1千小時法語語音訓練的wav2vec2基礎模型，支持語音識別等任務

語音識別

Transformers

法語開源協議:Apache-2.0 #法語語音識別 #自監督學習 #多場景語音處理

下載量 85

發布時間 : 3/2/2022

模型概述

LeBenchmark提供的wav2vec2基礎模型，基於1K小時法語語音訓練，包含自發性、朗讀式和廣播式語音數據。適用於法語語音處理任務。

模型特點

多類型語音訓練

模型基於包含自發性、朗讀式和廣播式語音的法語數據集訓練

多種規模可選

提供從1K到14K小時不同訓練規模的模型版本

性別平衡數據

1K版本使用0.5K男性/0.5K女性語音數據訓練

模型能力

法語語音識別

語音特徵提取

說話人識別

源分離

使用案例

語音處理

法語語音轉文本

將法語語音轉換為文本內容

說話人識別

識別語音中的說話人身份

🚀 LeBenchmark：基於1000小時法語語音訓練的wav2vec2基礎模型

LeBenchmark提供了一組在不同法語數據集上預訓練的wav2vec2模型，這些數據集包含自發、朗讀和廣播語音。它有兩個版本，其中，後期版本（LeBenchmark 2.0）在預訓練的自監督學習（SSL）模型數量和下游任務數量方面都是第一個版本的擴展。有關可用於評估wav2vec2模型的不同基準測試的更多信息，請參考我們的論文：LeBenchmark 2.0：一個標準化、可複製且增強的法語語音自監督表示框架

✨ 主要特性

提供多種基於不同法語數據集預訓練的wav2vec2模型。
有兩個版本，後期版本在模型數量和下游任務數量上進行了擴展。
模型可在多個工具中進行微調，適用於不同的語音處理任務。

📦 模型和數據描述

我們發佈了四個不同的模型，可在我們的HuggingFace組織下找到。四種不同的wav2vec2架構 Light、Base、Large 和 xLarge 與我們的小（1K）、中（3K）、大（7K）和超大（14K）語料庫相結合。簡而言之：

Lebenchmark 2.0

wav2vec2-FR-14K-xlarge：在14000小時法語語音（5400名男性 / 2400名女性 / 6800名未知）上訓練的xLarge wav2vec2模型。
wav2vec2-FR-14K-large：在14000小時法語語音（5400名男性 / 2400名女性 / 6800名未知）上訓練的Large wav2vec2模型。
wav2vec2-FR-14K-light：在14000小時法語語音（5400名男性 / 2400名女性 / 6800名未知）上訓練的Light wav2vec2模型。

Lebenchmark

wav2vec2-FR-7K-large：在7600小時法語語音（1800名男性 / 1000名女性 / 4800名未知）上訓練的Large wav2vec2模型。
wav2vec2-FR-7K-base：在7600小時法語語音（1800名男性 / 1000名女性 / 4800名未知）上訓練的Base wav2vec2模型。
wav2vec2-FR-3K-large：在2900小時法語語音（1800名男性 / 1000名女性 / 100名未知）上訓練的Large wav2vec2模型。
wav2vec2-FR-3K-base：在2900小時法語語音（1800名男性 / 1000名女性 / 100名未知）上訓練的Base wav2vec2模型。
wav2vec2-FR-2.6K-base：在2600小時法語語音（無自發語音）上訓練的Base wav2vec2模型。
wav2vec2-FR-1K-large：在1000小時法語語音（500名男性 / 500名女性）上訓練的Large wav2vec2模型。
wav2vec2-FR-1K-base：在1000小時法語語音（500名男性 / 500名女性）上訓練的Base wav2vec2模型。

📚 預期用途和限制

預訓練的wav2vec2模型遵循Apache - 2.0許可證分發。因此，它們可以廣泛重用，沒有嚴格的限制。但是，基準測試和數據可能與未完全開源的語料庫相關聯。

💻 使用示例

使用Fairseq進行基於CTC的自動語音識別（ASR）微調

由於我們的wav2vec2模型是使用Fairseq訓練的，因此可以使用他們提供的不同工具對模型進行微調，以用於基於CTC的自動語音識別。完整的過程已在這篇博客文章中進行了很好的總結。

⚠️ 重要提示

由於CTC的性質，語音轉文本的結果預計不會達到最先進水平。此外，未來的功能可能會根據Fairseq和HuggingFace在這方面的參與情況而出現。

集成到SpeechBrain進行自動語音識別、說話人識別、源分離等

預訓練的wav2vec模型最近越來越受歡迎。與此同時，SpeechBrain工具包問世，它提出了一種處理最先進語音和深度學習技術的新的、更簡單的方法。

雖然目前它還處於測試階段，但SpeechBrain提供了兩種很好的方法來集成使用Fairseq訓練的wav2vec2模型，即我們的LeBenchmark模型！

基礎用法 即時提取wav2vec2特徵（使用凍結的wav2vec2編碼器），並與任何與語音相關的架構相結合。示例包括：基於CTC + 注意力 + 語言模型的端到端自動語音識別；說話人識別或驗證、源分離等。
高級用法 實驗性：為了充分利用wav2vec2，最佳解決方案仍然是在訓練下游任務時對模型進行微調。在SpeechBrain中，只需打開一個標誌即可輕鬆實現這一點。因此，我們的wav2vec2模型可以在訓練您喜歡的自動語音識別管道或說話人識別器時進行微調。

💡 使用建議

如果您感興趣，只需按照本教程操作。

🔧 引用LeBenchmark

@misc{parcollet2023lebenchmark,
      title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech}, 
      author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
      year={2023},
      eprint={2309.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}