asr-wav2vec2-dvoice-amharic開源模型 - 精準實現阿姆哈拉語自動語音識別

首頁

Asr Wav2vec2 Dvoice Amharic

由speechbrain開發

這是一個針對阿姆哈拉語的自動語音識別模型，使用wav2vec 2.0架構和CTC/Attention機制訓練

語音識別

PyTorch

其他開源協議:Apache-2.0 #非洲語言識別 #低資源語音處理 #wav2vec2微調

下載量 96

發布時間 : 6/9/2022

模型概述

該模型是一個端到端的自動語音識別系統，專門用於阿姆哈拉語的語音轉錄任務。它結合了預訓練的wav2vec 2.0模型和CTC解碼器，在DVoice阿姆哈拉語數據集上進行了微調。

模型特點

預訓練模型微調

基於facebook/wav2vec2-large-xlsr-53預訓練模型進行微調，提高了對阿姆哈拉語的識別能力

端到端系統

提供完整的端到端解決方案，包括分詞器和聲學模型

多平臺支持

支持CPU和GPU推理，可靈活部署在不同硬件環境

模型能力

阿姆哈拉語語音識別

音頻轉錄

語音轉文本

使用案例

語音轉錄

阿姆哈拉語語音轉錄

將阿姆哈拉語語音轉換為文本

驗證集CER 6.71%，WER 25.50%

語音助手

阿姆哈拉語語音助手

構建支持阿姆哈拉語的語音交互系統

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Amharic (No LM)

本倉庫提供了所有必要的工具，用於在 SpeechBrain 中基於一個在 ALFFA 阿姆哈拉語數據集上預訓練的端到端系統執行自動語音識別。為了獲得更好的體驗，我們鼓勵您進一步瞭解 SpeechBrain。

🚀 快速開始

本倉庫提供了在 SpeechBrain 中基於預訓練的端到端系統進行自動語音識別的工具。若想獲得更好的體驗，建議您深入瞭解 SpeechBrain。

✨ 主要特性

提供在阿姆哈拉語數據集上預訓練的端到端自動語音識別系統。
系統由分詞器（unigram）和聲學模型（wav2vec2.0 + CTC）組成。
代碼會在調用 transcribe_file 時自動對音頻進行歸一化處理（重採樣 + 單聲道選擇）。

📦 安裝指南

首先，請使用以下命令安裝 transformers 和 SpeechBrain：

pip install speechbrain transformers

請注意，我們建議您閱讀 SpeechBrain 教程，進一步瞭解 SpeechBrain。

💻 使用示例

基礎用法

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

高級用法

若要在 GPU 上進行推理，在調用 from_hparams 方法時添加 run_opts={"device":"cuda"}：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-amharic", savedir="pretrained_models/asr-wav2vec2-dvoice-amharic", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-amharic/example_amharic.wav')

📚 詳細文檔

管道描述

此自動語音識別系統由兩個不同但相互關聯的模塊組成：

分詞器（unigram）：將單詞轉換為子詞單元，並使用訓練轉錄數據進行訓練。
聲學模型（wav2vec2.0 + CTC）：將預訓練的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）與兩個深度神經網絡層相結合，並在達裡賈語數據集上進行微調。最終得到的聲學表示將輸入到 CTC 貪心解碼器中。系統使用採樣率為 16kHz（單聲道）的錄音進行訓練。代碼在調用 transcribe_file 時會自動對音頻進行歸一化處理（重採樣 + 單聲道選擇）。

訓練

該模型使用 SpeechBrain 進行訓練。若要從頭開始訓練，請按照以下步驟操作：

克隆 SpeechBrain：

git clone https://github.com/speechbrain/speechbrain/

安裝：

cd speechbrain
pip install -r requirements.txt
pip install -e .

運行訓練：

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_amh_with_wav2vec.yaml --data_folder=/localscratch/ALFFA_PUBLIC/ASR/AMHARIC/data/

您可以在此處找到我們的訓練結果（模型、日誌等）。

侷限性

SpeechBrain 團隊不保證該模型在其他數據集上的性能。

關於 DVoice

DVoice 是一個社區倡議項目，旨在為非洲低資源語言提供數據和模型，以促進語音技術的應用。由於這些語言的數據匱乏，需要採用特定的方法來收集數據。目前採用了兩種不同的方法：基於 Mozilla Common Voice 的 DVoice 平臺（https://dvoice.ma 和 https://dvoice.sn），用於從社區收集真實錄音；以及遷移學習技術，用於自動標註從社交媒體獲取的錄音。DVoice 平臺目前管理著 7 種語言，包括達裡賈語（摩洛哥阿拉伯語方言），其數據集在本版本中有所體現，還有沃洛夫語、曼丁哥語、塞雷爾語、富拉語、迪奧拉語和索寧克語。

關於 AIOX Labs

AIOX-Labs 總部位於拉巴特、倫敦和巴黎，致力於運用人工智能技術滿足企業的業務需求和數據項目。

助力企業發展、優化流程或提升客戶體驗。
業務涵蓋多個領域，從金融科技到工業，包括零售和消費品。
提供具有堅實算法基礎且可根據每個客戶特定需求進行調整的數據產品。
擁有一支由人工智能博士和商業專家組成的互補團隊，具有堅實的科學基礎和國際出版物。網站：https://www.aiox-labs.com/

SI2M 實驗室

信息系統、智能系統和數學建模研究實驗室（SI2M）是國家統計與應用經濟研究所（INSEA）的一個學術研究實驗室。該實驗室的研究領域包括信息系統、智能系統、人工智能、決策支持、網絡與系統安全以及數學建模。網站：SI2M Laboratory

關於 SpeechBrain

SpeechBrain 是一個開源的一體化語音工具包。它設計簡單、極其靈活且用戶友好，在多個領域取得了有競爭力或領先的性能。網站：https://speechbrain.github.io/ GitHub：https://github.com/speechbrain/speechbrain

🔧 技術細節

評估指標

DVoice 版本	驗證集字符錯誤率（CER）	驗證集詞錯誤率（WER）	測試集字符錯誤率（CER）	測試集詞錯誤率（WER）
v2.0	6.71	25.50	6.57	24.92

引用

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\\\url{https://github.com/speechbrain/speechbrain}},
  }