asr-wav2vec2-dvoice-wolof開源模型 - 免費支持沃洛夫語語音轉錄功能

首頁

Asr Wav2vec2 Dvoice Wolof

由speechbrain開發

這是一個針對沃洛夫語的自動語音識別模型，基於wav2vec 2.0架構，在DVoice數據集上訓練，支持沃洛夫語語音轉錄。

語音識別

PyTorch

其他開源協議:Apache-2.0 #沃洛夫語語音識別 #低資源語言優化 #無語言模型依賴

下載量 44

發布時間 : 6/9/2022

模型概述

該模型是一個端到端的自動語音識別系統，結合了預訓練的wav2vec 2.0模型和CTC/Attention機制，專門用於沃洛夫語的語音識別任務。

模型特點

預訓練模型微調

基於facebook/wav2vec2-large-xlsr-53預訓練模型進行微調，充分利用大規模預訓練的優勢

端到端解決方案

提供從音頻輸入到文本輸出的完整流程，包括音頻預處理和轉錄

低資源語言支持

專門針對沃洛夫語這類低資源語言優化，有助於促進非洲語言技術的發展

模型能力

沃洛夫語語音識別

音頻文件轉錄

即時語音轉文本

使用案例

語音轉錄

沃洛夫語語音轉錄

將沃洛夫語語音內容轉換為文本

驗證集CER 4.81%，WER 16.25%

語言技術開發

非洲語言技術研究

為非洲低資源語言提供語音技術研究基礎

🚀 基於 DVoice 沃洛夫語（無語言模型）訓練的帶 CTC/注意力機制的 wav2vec 2.0

本倉庫提供了在 SpeechBrain 中，基於在 ALFFA 沃洛夫語數據集上預訓練的端到端系統進行自動語音識別所需的所有工具。為獲得更好的體驗，建議您進一步瞭解 SpeechBrain。

🚀 快速開始

本項目提供了在沃洛夫語數據集上訓練的自動語音識別系統。您可以按照以下步驟快速開始使用。

✨ 主要特性

本 ASR 系統由兩部分組成：使用訓練轉錄數據訓練的將單詞轉換為子詞單元的分詞器（unigram），以及結合了預訓練的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）和兩個 DNN 層並在沃洛夫語數據集上微調的聲學模型（wav2vec2.0 + CTC）。
系統使用採樣率為 16kHz（單聲道）的錄音進行訓練，代碼在調用 transcribe_file 時會自動對音頻進行歸一化處理（即重採樣和單聲道選擇）。

模型性能

DVoice 版本	驗證集字符錯誤率（CER）	驗證集詞錯誤率（WER）	測試集字符錯誤率（CER）	測試集詞錯誤率（WER）
v2.0	4.81	16.25	4.83	16.05

📦 安裝指南

首先，請使用以下命令安裝 transformers 和 SpeechBrain：

pip install speechbrain transformers

建議您閱讀 SpeechBrain 教程，進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

以下是轉錄沃洛夫語音頻文件的示例代碼：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-wolof", savedir="pretrained_models/asr-wav2vec2-dvoice-wolof")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-wolof/example_wolof.wav')

高級用法

若要在 GPU 上進行推理，可在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-wolof", savedir="pretrained_models/asr-wav2vec2-dvoice-wolof", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-wolof/example_wolof.wav')

📚 詳細文檔

訓練步驟

若要從頭開始訓練該模型，請按照以下步驟操作：

克隆 SpeechBrain 倉庫：

git clone https://github.com/speechbrain/speechbrain/

安裝依賴：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練腳本：

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_wol_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/WOLOF/data/

侷限性

SpeechBrain 團隊不保證該模型在其他數據集上的性能。

🔧 技術細節

本 ASR 系統由兩個不同但相互關聯的模塊組成：

分詞器（unigram）：將單詞轉換為子詞單元，並使用訓練轉錄數據進行訓練。
聲學模型（wav2vec2.0 + CTC）：結合預訓練的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）和兩個 DNN 層，並在沃洛夫語數據集上進行微調。最終得到的聲學表示將輸入到 CTC 貪心解碼器中。

系統使用採樣率為 16kHz（單聲道）的錄音進行訓練。代碼在調用 transcribe_file 時會自動對音頻進行歸一化處理（即重採樣和單聲道選擇）。

📄 許可證

本項目採用 Apache-2.0 許可證。

📖 引用信息

如果您使用了本項目或 SpeechBrain，請引用以下文獻：

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }

🌟 關於相關項目

關於 DVoice

DVoice 是一個社區倡議項目，旨在為非洲低資源語言提供數據和模型，以促進語音技術的應用。由於這些語言的數據匱乏，需要採用特定的方法收集數據。目前採用了兩種不同的方法：基於 Mozilla Common Voice 的 DVoice 平臺（https://dvoice.ma 和 https://dvoice.sn）用於收集社區的真實錄音，以及使用遷移學習技術自動標註從社交媒體獲取的錄音。DVoice 平臺目前管理著 7 種語言，包括本版本中出現的達裡賈語（摩洛哥阿拉伯語方言）、沃洛夫語、曼丁哥語、塞雷爾語、富拉語、迪奧拉語和索寧克語。

本項目由 AIOX Labs 和 SI2M 實驗室合作開展，共同構建技術的未來。