wav2vec2-xlsr-tatar开源语音识别模型 - 高效识别鞑靼语语音内容

首页

Wav2vec2 Xlsr Tatar

由 sammy786 开发

该模型是基于facebook/wav2vec2-xls-r-1b在鞑靼语数据集上微调得到的自动语音识别模型，在Common Voice 8数据集上取得了16.87%的词错误率(WER)。

语音识别

Transformers

其他开源协议:Apache-2.0 #鞑靼语语音识别 #低词错误率 #多方言支持

下载量 17

发布时间 : 3/2/2022

模型简介

用于鞑靼语自动语音识别的预训练模型，基于wav2vec2-xls-r-1b架构微调

模型特点

低词错误率

在鞑靼语测试集上达到16.87%的词错误率(WER)和3.64%的字错误率(CER)

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-1b模型微调，继承了其强大的语音特征提取能力

鞑靼语优化

专门针对鞑靼语语音数据进行优化，适用于鞑靼语语音识别场景

模型能力

鞑靼语语音识别

语音转文本

连续语音识别

使用案例

语音转录

鞑靼语语音转写

将鞑靼语语音内容转换为文本

词错误率16.87%，字错误率3.64%

语音助手

鞑靼语语音交互

为鞑靼语语音助手提供语音识别能力

🚀 sammy786/wav2vec2-xlsr-tatar

该模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - tt 数据集上的微调版本。它在评估集（训练数据集的 10% 与其他和开发数据集合并）上取得了良好的效果。

🚀 快速开始

若要在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估，可使用以下命令：

python eval.py --model_id sammy786/wav2vec2-xlsr-tatar --dataset mozilla-foundation/common_voice_8_0 --config tt --split test

✨ 主要特性

该模型在评估集上取得了以下结果：
- 损失：7.66
- 字错率（Wer）：7.08

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-1b" 进行了微调。

预期用途和限制

需要更多相关信息。

训练和评估数据

训练数据为 Common voice Finnish 的 train.tsv、dev.tsv 和 other.tsv 文件。

训练过程

为创建训练数据集，将所有可能的数据集进行合并，并采用 90 - 10 的分割方式。

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.000045637994662983496
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
总训练批次大小（total_train_batch_size）：32
优化器（optimizer）：Adam，β=(0.9, 0.999)，ε=1e - 08
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：40
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步数	训练损失	验证损失	字错率（Wer）
200	4.849400	1.874908	0.995232
400	1.105700	0.257292	0.367658
600	0.723000	0.181150	0.250513
800	0.660600	0.167009	0.226078
1000	0.568000	0.135090	0.177339
1200	0.721200	0.117469	0.166413
1400	0.416300	0.115142	0.153765
1600	0.346000	0.105782	0.153963
1800	0.279700	0.102452	0.146149
2000	0.273800	0.095818	0.128468
2200	0.252900	0.102302	0.133766
2400	0.255100	0.096592	0.121316
2600	0.229600	0.091263	0.124561
2800	0.213900	0.097748	0.125687
3000	0.210700	0.091244	0.125422
3200	0.202600	0.084076	0.106284
3400	0.200900	0.093809	0.113238
3600	0.192700	0.082918	0.108139
3800	0.182000	0.084487	0.103371
4000	0.167700	0.091847	0.104960
4200	0.183700	0.085223	0.103040
4400	0.174400	0.083862	0.100589
4600	0.163100	0.086493	0.099728
4800	0.162000	0.081734	0.097543
5000	0.153600	0.077223	0.092974
5200	0.153700	0.086217	0.090789
5400	0.140200	0.093256	0.100457
5600	0.142900	0.086903	0.097742
5800	0.131400	0.083068	0.095225
6000	0.126000	0.086642	0.091252
6200	0.135300	0.083387	0.091186
6400	0.126100	0.076479	0.086352
6600	0.127100	0.077868	0.086153
6800	0.118000	0.083878	0.087676
7000	0.117600	0.085779	0.091054
7200	0.113600	0.084197	0.084233
7400	0.112000	0.078688	0.081319
7600	0.110200	0.082534	0.086087
7800	0.106400	0.077245	0.080988
8000	0.102300	0.077497	0.079332
8200	0.109500	0.079083	0.088339
8400	0.095900	0.079721	0.077809
8600	0.094700	0.079078	0.079730
8800	0.097400	0.078785	0.079200
9000	0.093200	0.077445	0.077015
9200	0.088700	0.078207	0.076617
9400	0.087200	0.078982	0.076485
9600	0.089900	0.081209	0.076021
9800	0.081900	0.078158	0.075757
10000	0.080200	0.078074	0.074498
10200	0.085000	0.078830	0.073373
10400	0.080400	0.078144	0.073373
10600	0.078200	0.077163	0.073902
10800	0.080900	0.076394	0.072446
11000	0.080700	0.075955	0.071585
11200	0.076800	0.077031	0.072313
11400	0.076300	0.077401	0.072777
11600	0.076700	0.076613	0.071916
11800	0.076000	0.076672	0.071916
12000	0.077200	0.076490	0.070989
12200	0.076200	0.076688	0.070856
12400	0.074400	0.076780	0.071055
12600	0.076300	0.076768	0.071320
12800	0.077600	0.076727	0.071055
13000	0.077700	0.076714	0.071254