asr - wav2vec2 - dvoice - darija开源模型 - 支持摩洛哥阿拉伯语方言语音识别

首页

Asr Wav2vec2 Dvoice Darija

由 speechbrain 开发

这是一个针对摩洛哥阿拉伯语方言(Darija)的自动语音识别模型，基于wav2vec 2.0架构在DVoice数据集上微调训练而成。

语音识别

PyTorch

其他开源协议:Apache-2.0 #摩洛哥方言识别 #低资源语言ASR #wav2vec2微调

下载量 120

发布时间 : 6/9/2022

模型简介

该模型提供端到端的Darija语音转录功能，采用预训练的wav2vec 2.0模型作为基础，叠加DNN层并在Darija数据集上微调，最终通过CTC贪婪解码器输出文本结果。

模型特点

低资源语言支持

专门针对资源稀缺的Darija方言优化，通过迁移学习技术解决数据不足问题

社区驱动数据

基于DVoice平台收集的真实社区录音数据训练，反映实际语言使用场景

高效微调架构

在预训练的wav2vec2-large-xlsr-53模型基础上，仅添加两层DNN进行微调，实现高效训练

模型能力

摩洛哥阿拉伯语方言语音识别

16kHz单声道音频处理

自动音频标准化（重采样/单声道选择）

使用案例

语音转录

方言媒体内容转录

将摩洛哥方言的播客、视频等内容自动转为文字

测试集WER 18.28%，CER 5.85%

语音助手

方言语音指令识别

为摩洛哥地区用户提供方言交互的语音助手

🚀 wav2vec 2.0 with CTC/Attention trained on DVoice Darija (No LM)

本仓库提供了所有必要的工具，用于在 SpeechBrain 中基于一个在 DVoice 达里杰语（Darija）数据集上预训练的端到端系统进行自动语音识别。为了获得更好的体验，我们鼓励您进一步了解 SpeechBrain。

📊 评估指标

DVoice 版本	验证集字符错误率（CER）	验证集词错误率（WER）	测试集字符错误率（CER）	测试集词错误率（WER）
v2.0	5.51	18.46	5.85	18.28

🚀 快速开始

本自动语音识别（ASR）系统由两个不同但相互关联的模块组成：

分词器（unigram）：将单词转换为子词单元，并使用训练转录数据进行训练。
声学模型（wav2vec2.0 + CTC）：将预训练的 wav2vec 2.0 模型（facebook/wav2vec2-large-xlsr-53）与两个深度神经网络（DNN）层相结合，并在达里杰语数据集上进行微调。最终得到的声学表示将输入到 CTC 贪心解码器中。

该系统使用采样率为 16kHz（单声道）的录音进行训练。当调用 transcribe_file 时，如果需要，代码将自动对您的音频进行归一化处理（即重采样 + 单声道选择）。

📦 安装指南

首先，请使用以下命令安装 transformers 和 SpeechBrain：

pip install speechbrain transformers

请注意，我们建议您阅读 SpeechBrain 教程并进一步了解 SpeechBrain。

💻 使用示例

基础用法

以下是转录您自己的达里杰语音频文件的示例代码：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija")
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')

高级用法

若要在 GPU 上进行推理，请在调用 from_hparams 方法时添加 run_opts={"device":"cuda"}：

from speechbrain.inference.ASR import EncoderASR
asr_model = EncoderASR.from_hparams(source="speechbrain/asr-wav2vec2-dvoice-darija", savedir="pretrained_models/asr-wav2vec2-dvoice-darija", run_opts={"device":"cuda"})
asr_model.transcribe_file('speechbrain/asr-wav2vec2-dvoice-darija/example_darija.wav')

📚 详细文档

训练步骤

该模型使用 SpeechBrain 进行训练。若要从头开始训练，请按照以下步骤操作：

克隆 SpeechBrain 仓库：

git clone https://github.com/speechbrain/speechbrain/

安装依赖：

cd speechbrain
pip install -r requirements.txt
pip install -e .

运行训练脚本：

cd recipes/DVoice/ASR/CTC
python train_with_wav2vec2.py hparams/train_dar_with_wav2vec.yaml --data_folder=/localscratch/darija/

您可以在此处找到我们的训练结果（模型、日志等）。

局限性

SpeechBrain 团队不保证该模型在其他数据集上的性能。

引用 SpeechBrain

如果您使用了该项目，请引用以下文献：

@misc{SB2021,
    author = {Ravanelli, Mirco and Parcollet, Titouan and Rouhe, Aku and Plantinga, Peter and Rastorgueva, Elena and Lugosch, Loren and Dawalatabad, Nauman and Ju-Chieh, Chou and Heba, Abdel and Grondin, Francois and Aris, William and Liao, Chien-Feng and Cornell, Samuele and Yeh, Sung-Lin and Na, Hwidong and Gao, Yan and Fu, Szu-Wei and Subakan, Cem and De Mori, Renato and Bengio, Yoshua },
    title = {SpeechBrain},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {\\url{https://github.com/speechbrain/speechbrain}},
  }

关于 DVoice

DVoice 是一个社区项目，旨在为非洲低资源语言提供数据和模型，以促进语音技术的应用。由于这些语言的数据匮乏，因此需要采用针对每种语言的特定方法来收集数据。目前使用了两种不同的方法：基于 Mozilla Common Voice 的 DVoice 平台（https://dvoice.ma 和 https://dvoice.sn），用于从社区收集真实录音；以及迁移学习技术，用于自动标记从社交媒体获取的录音。DVoice 平台目前管理着 7 种语言，包括本版本中使用的达里杰语（摩洛哥阿拉伯语方言）、沃洛夫语、曼丁哥语、塞雷尔语、富拉语、迪奥拉语和索宁克语。

在这个项目中，AIOX Labs 和 SI2M 实验室携手合作，共同构建技术的未来。