wav2vec2-xls-r-1B-german开源模型 - 免费部署实现德语自动语音识别

首页

Wav2vec2 Xls R 1B German

由 AndrewMcDowell 开发

该模型是基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - 德语数据集上微调的版本，用于德语自动语音识别任务。

语音识别

Transformers

德语开源协议:Apache-2.0 #德语语音识别 #高精度WER15.25 #多场景鲁棒性

下载量 48

发布时间 : 3/2/2022

模型简介

这是一个德语自动语音识别(ASR)模型，基于XLS-R架构，在Common Voice 8.0德语数据集上微调。

模型特点

高性能德语识别

在Common Voice 8德语测试集上达到15.25%的词错误率(WER)

基于XLS-R架构

采用强大的wav2vec2-xls-r-1b架构进行微调

多数据集评估

在Common Voice和鲁棒语音事件数据集上进行了全面评估

模型能力

德语语音识别

语音转文本

音频内容转录

使用案例

语音转录

德语语音转录

将德语语音内容转换为文本

在Common Voice测试集上WER为15.25%

语音助手

德语语音命令识别

识别德语语音命令

在鲁棒语音事件测试集上WER为36.2%

🚀 XLS - R - 300M - 德语语音识别模型

本模型是基于自动语音识别技术的模型，在德语语音识别任务上进行了优化。它基于预训练模型微调而来，能够有效处理德语语音数据，为德语语音识别相关应用提供支持。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - DE 数据集上的微调版本。它在评估集上取得了以下结果：

损失：0.1355
词错误率（Wer）：0.1532

📚 详细文档

模型描述

该模型是针对德语语音识别进行微调的版本，基于强大的预训练模型，在德语语音数据集上进行了优化训练。

预期用途与限制

目前文档未提供相关详细信息。

训练和评估数据

目前文档未提供相关详细信息。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：7.5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：2000
训练轮数：2.5
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
1.0826	0.07	1000	0.4637	0.4654
1.118	0.15	2000	0.2595	0.2687
1.1268	0.22	3000	0.2635	0.2661
1.0919	0.29	4000	0.2417	0.2566
1.1013	0.37	5000	0.2414	0.2567
1.0898	0.44	6000	0.2546	0.2731
1.0808	0.51	7000	0.2399	0.2535
1.0719	0.59	8000	0.2353	0.2528
1.0446	0.66	9000	0.2427	0.2545
1.0347	0.73	10000	0.2266	0.2402
1.0457	0.81	11000	0.2290	0.2448
1.0124	0.88	12000	0.2295	0.2448
1.025	0.95	13000	0.2138	0.2345
1.0107	1.03	14000	0.2108	0.2294
0.9758	1.1	15000	0.2019	0.2204
0.9547	1.17	16000	0.2000	0.2178
0.986	1.25	17000	0.2018	0.2200
0.9588	1.32	18000	0.1992	0.2138
0.9413	1.39	19000	0.1898	0.2049
0.9339	1.47	20000	0.1874	0.2056
0.9268	1.54	21000	0.1797	0.1976
0.9194	1.61	22000	0.1743	0.1905
0.8987	1.69	23000	0.1738	0.1932
0.8884	1.76	24000	0.1703	0.1873
0.8939	1.83	25000	0.1633	0.1831
0.8629	1.91	26000	0.1549	0.1750
0.8607	1.98	27000	0.1550	0.1738
0.8316	2.05	28000	0.1512	0.1709
0.8321	2.13	29000	0.1481	0.1657
0.825	2.2	30000	0.1446	0.1627
0.8115	2.27	31000	0.1396	0.1583
0.7959	2.35	32000	0.1389	0.1569
0.7835	2.42	33000	0.1362	0.1545
0.7959	2.49	34000	0.1355	0.1531

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2 + cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

评估命令

在 mozilla - foundation/common_voice_8_0 数据集的 test 分割上进行评估

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset mozilla-foundation/common_voice_8_0 --config de --split test --log_outputs

在测试开发数据上进行评估

python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1B-german --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 许可证

本模型使用 Apache - 2.0 许可证。

🔍 模型指标

任务	数据集	测试词错误率（WER）	测试字符错误率（CER）
自动语音识别	Common Voice 8	15.25	3.78
自动语音识别	Robust Speech Event - Dev Data	35.29	13.83
自动语音识别	Robust Speech Event - Test Data	36.2	-