🚀 arijitx/wav2vec2-xls-r-300m-bengali
本模型是 facebook/wav2vec2-xls-r-300m 在 OPENSLR_SLR53 - 孟加拉语数据集上的微调版本,可用于自动语音识别任务,在评估集上取得了较好的效果。
🚀 快速开始
此模型是在 OPENSLR_SLR53 - 孟加拉语数据集上对 facebook/wav2vec2-xls-r-300m 进行微调得到的。它在评估集上取得了以下结果:
无语言模型时
- 词错误率(WER):0.21726385291857586
- 字符错误率(CER):0.04725010353701041
- 词错误率(WER):0.15322879016421437
- 字符错误率(CER):0.03413696666806267
注意:在总共 10935 个样本中,5% 用于评估。评估集有 10935 个示例,这些示例不包含在训练集中。训练使用了前 95% 的数据,评估使用了最后 5% 的数据。训练在 180k 步后停止。输出预测结果可在文件部分查看。
✨ 主要特性
- 语言支持:支持孟加拉语(bn)的自动语音识别。
- 数据集:基于 openslr、SLR53 和 AI4Bharat/IndicCorp 等数据集进行训练。
- 评估指标:使用词错误率(WER)和字符错误率(CER)进行评估。
📚 详细文档
模型信息
属性 |
详情 |
支持语言 |
孟加拉语(bn) |
许可证 |
Apache-2.0 |
标签 |
自动语音识别、孟加拉语、hf-asr-leaderboard、openslr_SLR53、robust-speech-event |
数据集 |
openslr、SLR53、AI4Bharat/IndicCorp |
评估指标 |
词错误率(WER)、字符错误率(CER) |
训练超参数
训练过程中使用了以下超参数:
dataset_name="openslr"
model_name_or_path="facebook/wav2vec2-xls-r-300m"
dataset_config_name="SLR53"
output_dir="./wav2vec2-xls-r-300m-bengali"
overwrite_output_dir
num_train_epochs="50"
per_device_train_batch_size="32"
per_device_eval_batch_size="32"
gradient_accumulation_steps="1"
learning_rate="7.5e-5"
warmup_steps="2000"
length_column_name="input_length"
evaluation_strategy="steps"
text_column_name="sentence"
chars_to_ignore , ? . ! - ; : \" “ % ‘ ” � — ’ … –
save_steps="2000"
eval_steps="3000"
logging_steps="100"
layerdrop="0.0"
activation_dropout="0.1"
save_total_limit="3"
freeze_feature_encoder
feat_proj_dropout="0.0"
mask_time_prob="0.75"
mask_time_length="10"
mask_feature_prob="0.25"
mask_feature_length="64"
preprocessing_num_workers 32
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.11.0
注意事项
- 训练和评估代码修改自:https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event 。
- 孟加拉语语音数据在 Common Voice 或 LibriSpeech 多语言数据集中不可用,因此使用了 OpenSLR53。
- 使用最小音频时长 0.5 秒对训练数据进行过滤,可能排除了 10 - 20 个样本。
- OpenSLR53 转录文本不用于语言模型训练和评估。
📄 许可证
本模型使用 Apache-2.0 许可证。