asr-wav2vec2-commonvoice-fr開源語音識別模型 - 免費識別法語語音，無需語言模型

首頁

Asr Wav2vec2 Commonvoice Fr

由speechbrain開發

基於CommonVoice法語數據集訓練的wav2vec 2.0語音識別模型，使用CTC/Attention架構，無需語言模型

語音識別

PyTorch

法語開源協議:Apache-2.0 #法語語音識別 #wav2vec2微調 #無語言模型

下載量 250

發布時間 : 3/2/2022

模型概述

這是一個端到端的法語自動語音識別系統，基於預訓練的wav2vec 2.0模型微調，適用於法語語音轉文本任務。

模型特點

預訓練模型微調

基於LeBenchmark/wav2vec2-FR-7K-large預訓練模型進行微調，提高了法語識別準確率

無需語言模型

系統直接使用CTC貪婪解碼器，不需要額外的語言模型支持

高效訓練

使用2塊V100 32GB GPU即可完成訓練，資源消耗相對較低

模型能力

法語語音識別

音頻轉錄

16kHz採樣率處理

使用案例

語音轉文本

法語語音轉錄

將法語語音內容轉換為文本

測試WER 9.96%，CER 3.19%

🚀 wav2vec 2.0 基於 CTC/Attention 在 CommonVoice 法語數據集上訓練（無語言模型）

本倉庫提供了在 SpeechBrain 中使用基於 CommonVoice（法語）預訓練的端到端系統進行自動語音識別所需的所有工具。為獲得更好的體驗，我們建議您進一步瞭解 SpeechBrain。

模型信息

屬性	詳情
模型類型	自動語音識別
標籤	CTC、pytorch、speechbrain、Transformer、hf - asr - leaderboard
許可證	apache - 2.0
訓練數據集	commonvoice
評估指標	wer、cer

模型表現

發佈時間	測試字符錯誤率（CER）	測試詞錯誤率（WER）	GPU 配置
2021 年 8 月 24 日	3.19	9.96	2 塊 V100 32GB

🚀 快速開始

本自動語音識別（ASR）系統由兩個不同但相互關聯的模塊組成：

分詞器（unigram）：將單詞轉換為子詞單元，並使用 CommonVoice（法語）的訓練轉錄文件（train.tsv）進行訓練。
聲學模型（wav2vec2.0 + CTC）：將預訓練的 wav2vec 2.0 模型（[LeBenchmark/wav2vec2 - FR - 7K - large](https://huggingface.co/LeBenchmark/wav2vec2 - FR - 7K - large)）與兩個深度神經網絡（DNN）層相結合，並在 CommonVoice 法語數據集上進行微調。最終得到的聲學表示將輸入到 CTC 貪心解碼器中。

該系統使用採樣率為 16kHz（單聲道）的錄音進行訓練。在調用 transcribe_file 時，代碼會根據需要自動對音頻進行歸一化處理（即重採樣和選擇單聲道）。

📦 安裝指南

首先，請使用以下命令安裝 transformers 和 SpeechBrain：

pip install speechbrain transformers

建議您閱讀我們的教程，進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

對您自己的法語音頻文件進行轉錄：

from speechbrain.inference.ASR import EncoderASR

asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-commonvoice-fr", savedir="pretrained_models/asr-wav2vec2-commonvoice-fr")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-commonvoice-fr/example-fr.wav')

高級用法

在 GPU 上進行推理：在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}。

from speechbrain.inference.ASR import EncoderASR

asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-commonvoice-fr", savedir="pretrained_models/asr-wav2vec2-commonvoice-fr", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-commonvoice-fr/example-fr.wav')

🔧 技術細節

訓練步驟

該模型使用 SpeechBrain 進行訓練。若要從頭開始訓練，請按以下步驟操作：

克隆 SpeechBrain 倉庫：

git clone https://github.com/speechbrain/speechbrain/

安裝依賴：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練腳本：

cd recipes/CommonVoice/ASR/CTC/
python train_with_wav2vec.py hparams/train_fr_with_wav2vec.yaml --data_folder=your_data_folder

您可以在此處找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain 團隊不對該模型在其他數據集上的性能提供任何保證。

📚 詳細文檔

引用 SpeechBrain

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }