wav2vec2-large-xls-r-300m-sl-with-LM-v1开源语音识别模型

Home

Wav2vec2 Large Xls R 300m Sl With LM V1

Developed by DrishtiSharma

这是一个基于facebook/wav2vec2-xls-r-300m模型在斯洛文尼亚语(Common Voice 8.0)数据集上微调的自动语音识别(ASR)模型，结合语言模型(LM)提升了识别效果。

语音识别

Transformers

OtherOpen Source License:Apache-2.0 #斯洛文尼亚语语音识别 #高精度WER #多场景适配

Downloads 25

Release Time : 3/2/2022

Model Overview

该模型专门用于斯洛文尼亚语的语音识别任务，在Common Voice 8.0数据集上取得了较好的识别准确率。

Model Features

语言模型增强

结合语言模型(LM)显著提升了识别准确率，WER从20.6%降至13.5%

多数据集验证

在Common Voice和鲁棒语音事件等多个数据集上进行了验证

高效训练

使用混合精度训练和线性学习率调度器优化训练过程

Model Capabilities

斯洛文尼亚语语音识别

长音频处理(支持分块处理)

高准确率字符识别(CER 3.8%)

Use Cases

语音转文字

语音转录

将斯洛文尼亚语语音转换为文字

在Common Voice测试集上WER 13.5%

语音助手

语音指令识别

识别斯洛文尼亚语语音命令

在鲁棒语音事件测试集上WER 46.17%

🚀 wav2vec2-large-xls-r-300m-sl-with-LM-v1

本模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SL数据集对facebook/wav2vec2 - xls - r - 300m进行微调后的版本，可用于自动语音识别任务。

🚀 快速开始

本模型是在特定数据集上微调得到的自动语音识别模型，以下是相关的评估命令和训练信息。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

评估命令示例

对mozilla - foundation/common_voice_8_0测试集进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset mozilla-foundation/common_voice_8_0 --config sl --split test --log_outputs

对speech - recognition - community - v2/dev_data进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset speech-recognition-community-v2/dev_data --config sl --split validation --chunk_length_s 10 --stride_length_s 1

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla - foundation/common_voice_8_0

评估结果

任务	数据集	指标	值
自动语音识别	Common Voice 8 (sl)	Test WER	0.20626555409164105
自动语音识别	Common Voice 8 (sl)	Test CER	0.051648321634392154
自动语音识别	Common Voice 8 (sl)	Test WER (+LM)	0.13482652613087395
自动语音识别	Common Voice 8 (sl)	Test CER (+LM)	0.038838663862562475
自动语音识别	Robust Speech Event - Dev Data (sl)	Dev WER	0.5406156320830592
自动语音识别	Robust Speech Event - Dev Data (sl)	Dev CER	0.22249723590310583
自动语音识别	Robust Speech Event - Dev Data (sl)	Dev WER (+LM)	0.49783147459727384
自动语音识别	Robust Speech Event - Dev Data (sl)	Dev CER (+LM)	0.1591062599627158
自动语音识别	Robust Speech Event - Test Data (sl)	Test WER	46.17

训练超参数

学习率：7.1e - 05
训练批次大小：32
评估批次大小：32
随机种子：42
优化器：Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：100.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错误率 (Wer)
3.3881	6.1	500	2.9710	1.0
2.6401	12.2	1000	1.7677	0.9734
1.5152	18.29	1500	0.5564	0.6011
1.2191	24.39	2000	0.4319	0.4390
1.0237	30.49	2500	0.3141	0.3175
0.8892	36.59	3000	0.2748	0.2689
0.8296	42.68	3500	0.2680	0.2534
0.7602	48.78	4000	0.2820	0.2506
0.7186	54.88	4500	0.2672	0.2398
0.6887	60.98	5000	0.2729	0.2402
0.6507	67.07	5500	0.2767	0.2361
0.6226	73.17	6000	0.2817	0.2332
0.6024	79.27	6500	0.2679	0.2279
0.5787	85.37	7000	0.2837	0.2316
0.5744	91.46	7500	0.2838	0.2284
0.5556	97.56	8000	0.2763	0.2281