xls-r-1b-cv_8-fr开源法语自动语音识别模型，精准识别法语语音内容

首页

Xls R 1b Cv 8 Fr

由 Plim 开发

这是一个基于facebook/wav2vec2-xls-r-1b在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - FR数据集上微调的法语自动语音识别模型。

语音识别

Transformers

法语开源协议:Apache-2.0 #法语语音识别 #高精度WER #多场景鲁棒性

下载量 26

发布时间 : 3/2/2022

模型简介

该模型专门用于法语语音识别任务，在Common Voice 8法语数据集上表现出色，支持高准确率的语音转文本转换。

模型特点

高性能法语语音识别

在Common Voice 8法语测试集上达到15.4%的WER（带语言模型）

大规模预训练模型微调

基于10亿参数的wav2vec2-xls-r模型进行微调

多场景适应能力

在鲁棒语音事件数据集上也表现出较好的识别能力

模型能力

法语语音识别

高准确率语音转文本

处理不同口音和语音质量

使用案例

语音转录

法语语音转文字

将法语语音内容转换为文字记录

在Common Voice 8测试集上达到15.4% WER

语音助手

法语语音指令识别

识别和理解法语语音命令

🚀 XLS - R - 1B - 法语语音识别模型

本项目是一个基于微调的自动语音识别模型，在法语语音数据集上进行训练，可有效识别法语语音内容，在多个语音数据集上有良好的表现。

🚀 快速开始

评估命令

在 mozilla - foundation/common_voice_8 的 test 分割集上进行评估

python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset mozilla-foundation/common_voice_8_0 --config fr --split test

在 speech - recognition - community - v2/dev_data 上进行评估

python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

✨ 主要特性

基于 facebook/wav2vec2 - xls - r - 1b 模型进行微调，在法语语音识别任务上有良好表现。
支持使用语言模型（LM）进行评估，能有效降低词错误率（WER）和字符错误率（CER）。

📚 详细文档

模型描述

此模型是 [facebook/wav2vec2 - xls - r - 1b](https://huggingface.co/facebook/wav2vec2 - xls - r - 1b) 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - FR 数据集上的微调版本。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）：7.5e - 05
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：42
梯度累积步数（gradient_accumulation_steps）：8
总训练批次大小（total_train_batch_size）：128
优化器（optimizer）：Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：6.0
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
0.9827	0.29	1000	inf	0.2937
1.0203	0.57	2000	inf	0.2711
1.0048	0.86	3000	inf	0.2620
0.9858	1.15	4000	inf	0.2522
0.9709	1.43	5000	inf	0.2365
0.9347	1.72	6000	inf	0.2332
0.9256	2.01	7000	inf	0.2261
0.8936	2.29	8000	inf	0.2203
0.877	2.58	9000	inf	0.2096
0.8393	2.87	10000	inf	0.2017
0.8156	3.15	11000	inf	0.1936
0.8015	3.44	12000	inf	0.1880
0.774	3.73	13000	inf	0.1834
0.8372	4.01	14000	inf	0.1934
0.8075	4.3	15000	inf	0.1923
0.8069	4.59	16000	inf	0.1877
0.8064	4.87	17000	inf	0.1955
0.801	5.16	18000	inf	0.1891
0.8022	5.45	19000	inf	0.1895
0.792	5.73	20000	inf	0.1854