wav2vec2-xlsr-300m-finnish-lm开源模型 - 精准实现芬兰语自动语音识别

首页

Wav2vec2 Xlsr 300m Finnish Lm

由 Finnish-NLP 开发

基于facebook/wav2vec2-xls-r-300m微调的芬兰语自动语音识别模型，使用275.6小时芬兰语标注数据训练，支持与KenLM语言模型配合使用。

语音识别

Transformers

其他开源协议:Apache-2.0 #芬兰语语音识别 #多语言预训练微调 #低字符错误率

下载量 28.39k

发布时间 : 3/28/2022

模型简介

针对芬兰语优化的自动语音识别模型，适用于将芬兰语语音转换为文本的任务。

模型特点

多源训练数据

整合了Common Voice、议会录音、广播语料等275.6小时芬兰语数据，覆盖多种语音场景。

语言模型增强

配套提供基于音频文本和维基百科训练的芬兰语KenLM 5-gram语言模型，提升识别准确率。

高效训练

采用8-bit Adam优化器和混合精度训练，在V100 GPU上完成微调。

模型能力

芬兰语语音识别

长音频分块处理

领域自适应（需微调）

使用案例

语音转写

议会录音转录

适用于芬兰议会录音内容的自动文字转写

在议会数据为主的测试集上WER 8.16%

广播内容字幕生成

为芬兰语广播节目自动生成字幕

在广播语料测试集上CER 1.97%

教育科技

语言学习辅助

用于芬兰语学习者的发音评估和文本反馈

🚀 Wav2vec2-xls-r-300m用于芬兰语自动语音识别

该声学模型是 facebook/wav2vec2-xls-r-300m 针对芬兰语自动语音识别（ASR）任务的微调版本。模型使用了 275.6 小时的芬兰语转录语音数据进行微调。Wav2Vec2 XLS - R 在这篇论文中被提出，并首次在此页面发布。

本仓库还包含了在解码阶段与声学模型一起使用的芬兰语 KenLM 语言模型。

注意：此模型与 aapot/wav2vec2-xlsr-300m-finnish-lm 模型完全相同，只是将该模型复制/移动到了这个 Finnish - NLP Hugging Face 组织中。

✨ 主要特性

基于预训练的 facebook/wav2vec2-xls-r-300m 模型进行微调，适用于芬兰语自动语音识别任务。
结合了芬兰语 KenLM 语言模型，提升解码效果。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

要使用此模型进行芬兰语自动语音识别，可以参考本仓库中的 [run - finnish - asr - models.ipynb](https://huggingface.co/Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm/blob/main/run - finnish - asr - models.ipynb) 笔记本，其中有详细的使用示例。

评估模型

要评估此模型，可以运行本仓库中的 eval.py 脚本。以下是针对不同数据集的评估命令示例：

Common Voice 7.0 测试

python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm  --dataset mozilla-foundation/common_voice_7_0 --config fi --split test

Common Voice 9.0 测试

python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm  --dataset mozilla-foundation/common_voice_9_0 --config fi --split test

FLEURS ASR 测试

python3 eval.py --model_id Finnish-NLP/wav2vec2-xlsr-300m-finnish-lm --dataset google/fleurs --config fi_fi --split test

📚 详细文档

模型描述

Wav2Vec2 XLS - R 是 Facebook AI 开发的大规模多语言语音预训练模型。它在 436000 小时的无标签语音数据上进行预训练，这些数据包括 VoxPopuli、MLS、CommonVoice、BABEL 和 VoxLingua107。该模型使用 wav2vec 2.0 目标函数，支持 128 种语言。

你可以从 [这篇博客](https://ai.facebook.com/blog/xls - r - self - supervised - speech - processing - for - 128 - languages) 和这篇论文中了解更多关于预训练模型的信息。

此模型是预训练模型（3 亿参数变体）针对芬兰语 ASR 任务的微调版本。

预期用途与限制

预期用途

你可以使用此模型进行芬兰语自动语音识别（语音转文本）任务。

限制和偏差

此模型使用的音频样本最大长度为 20 秒，因此该模型最适合处理类似长度的较短音频。不过，你也可以尝试使用更长的音频，观察其效果。如果在处理非常长的音频文件时遇到内存不足的错误，可以使用 [这篇博客文章](https://huggingface.co/blog/asr - chunking) 中介绍的音频分块方法。
用于微调的绝大部分数据来自芬兰议会数据集，因此该模型可能无法很好地泛化到非常不同的领域，例如带有方言的日常芬兰语口语等。此外，数据集的音频往往以成年男性为主，因此该模型在处理儿童和女性的语音时可能效果不佳。
解码阶段使用的芬兰语 KenLM 语言模型是使用音频转录文本数据和芬兰语维基百科的一个子集进行训练的。因此，解码器的语言模型可能无法很好地泛化到非常不同的语言，例如带有方言的日常口语（因为维基百科主要包含正式的芬兰语）。为你的领域语言训练自己的 KenLM 语言模型并在解码中使用可能会更有益。

训练数据

此模型使用了来自以下数据集的 275.6 小时芬兰语转录语音数据进行微调：

数据集	时长	占总时长的百分比
[Common Voice 7.0 芬兰语训练 + 评估 + 其他拆分](https://huggingface.co/datasets/mozilla - foundation/common_voice_7_0)	9.70 小时	3.52 %
芬兰议会会议 2	0.24 小时	0.09 %
VoxPopuli 芬兰语	21.97 小时	7.97 %
CSS10 芬兰语	10.32 小时	3.74 %
[阿尔托芬兰议会 ASR 语料库](http://urn.fi/urn:nbn:fi:lb - 2021051903)	228.00 小时	82.73 %
[芬兰广播语料库](http://urn.fi/urn:nbn:fi:lb - 2016042502)	5.37 小时	1.95 %

数据集经过过滤，只包含最长 20 秒的音频样本。

训练过程

此模型是在 Hugging Face 组织的 [Robust Speech Challenge Event](https://discuss.huggingface.co/t/open - to - the - community - robust - speech - recognition - challenge/13614) 期间进行训练的。训练在由 OVHcloud 赞助的 Tesla V100 GPU 上完成。

训练脚本由 Hugging Face 提供，可在 [此处](https://github.com/huggingface/transformers/blob/main/examples/research_projects/robust - speech - event/run_speech_recognition_ctc_bnb.py) 获取。我们仅针对自定义数据集修改了其数据加载部分。

对于 KenLM 语言模型的训练，我们遵循了 Hugging Face 提供的 [博客文章教程](https://huggingface.co/blog/wav2vec2 - with - ngram)。5 - gram KenLM 的训练数据是音频训练数据的文本转录以及 100k 个清洗后的芬兰语维基百科（2021 年 8 月）数据集的随机样本。

训练超参数

训练期间使用了以下超参数：

学习率：5e - 04
训练批次大小：32
评估批次大小：32
随机种子：42
优化器：8 位 Adam，β=(0.9, 0.999)，ε = 1e - 08
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：10
混合精度训练：原生 AMP

预训练的 facebook/wav2vec2 - xls - r - 300m 模型使用以下超参数进行初始化：

注意力丢弃率：0.094
隐藏层丢弃率：0.047
特征投影丢弃率：0.04
掩码时间概率：0.082
层丢弃率：0.041
激活丢弃率：0.055
CTC 损失减少方式："mean"

训练结果

训练损失	轮数	步数	验证损失	字错误率（WER）
0.973	0.17	500	0.5750	0.6844
0.713	0.34	1000	0.3356	0.4518
0.6563	0.5	1500	0.3007	0.4039
0.642	0.67	2000	0.2619	0.3674
0.6203	0.84	2500	0.2488	0.3558
0.6016	1.01	3000	0.2795	0.3835
0.5423	1.17	3500	0.2652	0.3310
0.5639	1.34	4000	0.2479	0.3462
0.586	1.51	4500	0.2409	0.3295
0.5169	1.68	5000	0.2728	0.3352
0.5176	1.84	5500	0.2254	0.3149
0.4983	2.01	6000	0.2169	0.3009
0.4982	2.18	6500	0.2215	0.3079
0.4898	2.35	7000	0.2174	0.3023
0.4922	2.51	7500	0.2217	0.3081
0.5025	2.68	8000	0.2002	0.2710
0.4745	2.85	8500	0.1935	0.2783
0.4377	3.02	9000	0.1859	0.2742
0.4511	3.18	9500	0.2038	0.2786
0.4411	3.35	10000	0.1863	0.2651
0.4501	3.52	10500	0.1948	0.2605
0.4557	3.69	11000	0.1872	0.2695
0.4493	3.85	11500	0.1888	0.2632
0.4047	4.02	12000	0.1818	0.2559
0.4319	4.19	12500	0.1896	0.2648
0.4162	4.36	13000	0.1953	0.2595
0.4046	4.52	13500	0.1864	0.2606
0.4195	4.69	14000	0.1843	0.2467
0.4146	4.86	14500	0.1686	0.2450
0.378	5.03	15000	0.1731	0.2401
0.3792	5.19	15500	0.1676	0.2325
0.3855	5.36	16000	0.1740	0.2326
0.4029	5.53	16500	0.1674	0.2345
0.386	5.7	17000	0.1735	0.2280
0.3811	5.86	17500	0.1692	0.2258
0.3607	6.03	18000	0.1797	0.2279
0.3604	6.2	18500	0.1651	0.2206
0.3362	6.37	19000	0.1627	0.2199
0.3611	6.53	19500	0.1652	0.2172
0.3671	6.7	20000	0.1564	0.2140
0.3769	6.87	20500	0.1525	0.2101
0.3539	7.04	21000	0.1639	0.2096
0.3225	7.21	21500	0.1611	0.2087
0.3323	7.37	22000	0.1633	0.2008
0.3327	7.54	22500	0.1692	0.1975
0.3456	7.71	23000	0.1555	0.1991
0.3058	7.88	23500	0.1590	0.1959
0.3034	8.04	24000	0.1531	0.1973
0.2925	8.21	24500	0.1583	0.1978
0.2967	8.38	25000	0.1546	0.1906
0.2974	8.55	25500	0.1540	0.1869
0.3131	8.71	26000	0.1534	0.1850
0.3306	8.88	26500	0.1482	0.1844
0.2842	9.05	27000	0.1490	0.1854
0.2879	9.22	27500	0.1463	0.1799
0.27	9.38	28000	0.1454	0.1798
0.2874	9.55	28500	0.1504	0.1787
0.2757	9.72	29000	0.1512	0.1784
0.3017	9.89	29500	0.1484	0.1800

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2 + cu102
Datasets 1.18.3
Tokenizers 0.11.0

评估结果

评估使用了 [Common Voice 7.0 芬兰语测试拆分](https://huggingface.co/datasets/mozilla - foundation/common_voice_7_0)、[Common Voice 9.0 芬兰语测试拆分](https://huggingface.co/datasets/mozilla - foundation/common_voice_9_0) 以及 FLEURS ASR 芬兰语测试拆分。

此模型的训练数据包括 Common Voice 7.0 的训练拆分，但我们较新的 Finnish - NLP/wav2vec2 - base - fi - voxpopuli - v2 - finetuned 和 Finnish - NLP/wav2vec2 - large - uralic - voxpopuli - v2 - finnish 模型包括了 Common Voice 9.0，因此我们对两个版本的 Common Voice 都进行了测试。注意：Common Voice 似乎没有完全固定数据集版本之间的测试拆分，因此有可能 Common Voice 9.0 的一些训练示例出现在 Common Voice 7.0 的测试拆分中，反之亦然。因此，在使用不同版本的 Common Voice 训练的模型之间，Common Voice 测试结果的比较并不完全准确，但这种比较仍然有足够的意义。

Common Voice 7.0 测试

此模型（表格第三行）与我们的其他模型及其参数数量相比，取得了以下字错误率（WER）和字符错误率（CER）结果：

模型	模型参数	带 LM 的 WER	不带 LM 的 WER	带 LM 的 CER	不带 LM 的 CER
Finnish - NLP/wav2vec2 - base - fi - voxpopuli - v2 - finetuned	9500 万	5.85	13.52	1.35	2.44
Finnish - NLP/wav2vec2 - large - uralic - voxpopuli - v2 - finnish	3 亿	4.13	9.66	0.90	1.66
Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm	3 亿	8.16	17.92	1.97	3.36
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm	10 亿	5.65	13.11	1.20	2.23
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm - v2	10 亿	4.09	9.73	0.88	1.65

Common Voice 9.0 测试

此模型（表格第三行）与我们的其他模型及其参数数量相比，取得了以下字错误率（WER）和字符错误率（CER）结果：

模型	模型参数	带 LM 的 WER	不带 LM 的 WER	带 LM 的 CER	不带 LM 的 CER
Finnish - NLP/wav2vec2 - base - fi - voxpopuli - v2 - finetuned	9500 万	5.93	14.08	1.40	2.59
Finnish - NLP/wav2vec2 - large - uralic - voxpopuli - v2 - finnish	3 亿	4.13	9.83	0.92	1.71
Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm	3 亿	7.42	16.45	1.79	3.07
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm	10 亿	5.35	13.00	1.14	2.20
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm - v2	10 亿	3.72	8.96	0.80	1.52

FLEURS ASR 测试

此模型（表格第三行）与我们的其他模型及其参数数量相比，取得了以下字错误率（WER）和字符错误率（CER）结果：

模型	模型参数	带 LM 的 WER	不带 LM 的 WER	带 LM 的 CER	不带 LM 的 CER
Finnish - NLP/wav2vec2 - base - fi - voxpopuli - v2 - finetuned	9500 万	13.99	17.16	6.07	6.61
Finnish - NLP/wav2vec2 - large - uralic - voxpopuli - v2 - finnish	3 亿	12.44	14.63	5.77	6.22
Finnish - NLP/wav2vec2 - xlsr - 300m - finnish - lm	3 亿	17.72	23.30	6.78	7.67
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm	10 亿	20.34	16.67	6.97	6.35
Finnish - NLP/wav2vec2 - xlsr - 1b - finnish - lm - v2	10 亿	12.11	14.89	5.65	6.06