asr - wav2vec2 - dvoice - darija開源模型 - 支持摩洛哥阿拉伯語方言語音識別

首頁

Asr Wav2vec2 Dvoice Darija

由speechbrain開發

這是一個針對摩洛哥阿拉伯語方言(Darija)的自動語音識別模型，基於wav2vec 2.0架構在DVoice數據集上微調訓練而成。

語音識別

PyTorch

其他開源協議:Apache-2.0 #摩洛哥方言識別 #低資源語言ASR #wav2vec2微調

下載量 120

發布時間 : 6/9/2022

模型概述

該模型提供端到端的Darija語音轉錄功能，採用預訓練的wav2vec 2.0模型作為基礎，疊加DNN層並在Darija數據集上微調，最終通過CTC貪婪解碼器輸出文本結果。

模型特點

低資源語言支持

專門針對資源稀缺的Darija方言優化，通過遷移學習技術解決數據不足問題

社區驅動數據

基於DVoice平臺收集的真實社區錄音數據訓練，反映實際語言使用場景

高效微調架構

在預訓練的wav2vec2-large-xlsr-53模型基礎上，僅添加兩層DNN進行微調，實現高效訓練

模型能力

摩洛哥阿拉伯語方言語音識別

16kHz單聲道音頻處理

自動音頻標準化（重採樣/單聲道選擇）

使用案例

語音轉錄

方言媒體內容轉錄

將摩洛哥方言的播客、視頻等內容自動轉為文字

測試集WER 18.28%，CER 5.85%

語音助手

方言語音指令識別

為摩洛哥地區用戶提供方言交互的語音助手

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Darija (No LM)

本倉庫提供了所有必要的工具，用於在 SpeechBrain 中基於一個在 DVoice 達裡傑語（Darija）數據集上預訓練的端到端系統進行自動語音識別。為了獲得更好的體驗，我們鼓勵您進一步瞭解 SpeechBrain。

📊 評估指標

DVoice 版本	驗證集字符錯誤率（CER）	驗證集詞錯誤率（WER）	測試集字符錯誤率（CER）	測試集詞錯誤率（WER）
v2.0	5.51	18.46	5.85	18.28

🚀 快速開始

本自動語音識別（ASR）系統由兩個不同但相互關聯的模塊組成：

分詞器（unigram）：將單詞轉換為子詞單元，並使用訓練轉錄數據進行訓練。
聲學模型（wav2vec2.0 + CTC）：將預訓練的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）與兩個深度神經網絡（DNN）層相結合，並在達裡傑語數據集上進行微調。最終得到的聲學表示將輸入到 CTC 貪心解碼器中。

該系統使用採樣率為 16kHz（單聲道）的錄音進行訓練。當調用 transcribe_file 時，如果需要，代碼將自動對您的音頻進行歸一化處理（即重採樣 + 單聲道選擇）。

📦 安裝指南

首先，請使用以下命令安裝 transformers 和 SpeechBrain：

pip install speechbrain transformers

請注意，我們建議您閱讀 SpeechBrain 教程並進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

以下是轉錄您自己的達裡傑語音頻文件的示例代碼：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')

高級用法

若要在 GPU 上進行推理，請在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')

📚 詳細文檔

訓練步驟

該模型使用 SpeechBrain 進行訓練。若要從頭開始訓練，請按照以下步驟操作：

克隆 SpeechBrain 倉庫：

git clone https://github.com/speechbrain/speechbrain/

安裝依賴：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練腳本：

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_dar_with_wav2vec.yaml --data_folder=/localscratch/darija/

您可以在此處找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain 團隊不保證該模型在其他數據集上的性能。

引用 SpeechBrain

如果您使用了該項目，請引用以下文獻：

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\url{https://github.com/speechbrain/speechbrain}},
  }

關於 DVoice

DVoice 是一個社區項目，旨在為非洲低資源語言提供數據和模型，以促進語音技術的應用。由於這些語言的數據匱乏，因此需要採用針對每種語言的特定方法來收集數據。目前使用了兩種不同的方法：基於 Mozilla Common Voice 的 DVoice 平臺（https://dvoice.ma 和 https://dvoice.sn），用於從社區收集真實錄音；以及遷移學習技術，用於自動標記從社交媒體獲取的錄音。DVoice 平臺目前管理著 7 種語言，包括本版本中使用的達裡傑語（摩洛哥阿拉伯語方言）、沃洛夫語、曼丁哥語、塞雷爾語、富拉語、迪奧拉語和索寧克語。

在這個項目中，AIOX Labs 和 SI2M 實驗室攜手合作，共同構建技術的未來。