wav2vec2-xls-r-1b-japanese开源模型 - 支持日语自动语音识别

首页

Wav2vec2 Xls R 1b Japanese

由 vumichien 开发

该模型是基于facebook/wav2vec2-xls-r-1b在公共日语语音数据集上进行微调的版本，支持日语自动语音识别任务。

语音识别

Transformers

日语开源协议:Apache-2.0 #日语语音识别 #低CER表现 #多数据集微调

下载量 50

发布时间 : 3/2/2022

模型简介

这是一个针对日语优化的自动语音识别模型，基于wav2vec2-xls-r-1b架构，在Common Voice等日语语音数据集上微调而成。

模型特点

高性能日语识别

在Common Voice 7.0测试集上达到7.98%的WER和3.42%的CER

多数据集训练

融合了Common Voice、JUST、JSSS和CSS10等多个日语语音数据集

支持语言模型

可配合4-gram语言模型使用，显著提升识别准确率

模型能力

日语语音识别

语音转文本

支持长音频处理

使用案例

语音转录

日语语音转文字

将日语语音内容转换为文本

在Common Voice测试集上达到7.88-7.98%的词错误率

语音分析

日语语音内容分析

分析日语语音内容，提取关键信息

🚀 日语语音识别模型 wav2vec2-xls-r-1b

本模型基于facebook/wav2vec2-xls-r-1b进行微调，使用了多个公开的日语语音数据集进行训练，可用于日语语音识别任务，在多个基准测试中表现良好。

🚀 快速开始

评估模型

使用以下命令运行评估：

pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

✨ 主要特性

基于facebook/wav2vec2-xls-r-1b模型进行微调，适用于日语语音识别。
使用多个公开的日语语音数据集进行训练，包括Common Voice 7.0、JUST、JSSS和CSS10等。
在多个基准测试中取得了较好的WER（词错误率）和CER（字符错误率）结果。

📚 详细文档

模型描述

该模型是 facebook/wav2vec2-xls-r-1b 在多个公开日语语音数据集上的微调版本，这些数据集包括 Common Voice 7.0、JUST（东京大学猿渡实验室的日语语音语料库）、JSSS（用于摘要和简化的日语语音语料库）、CSS10（单说话人语音数据集集合）。预处理数据集可在 VUMICHIEN/COMMON_VOICE_LARGE_JSUT_JSSS_CSS10 中找到。

总训练数据

约60小时

基准测试WER结果

	COMMON VOICE 7.0	COMMON VOICE 8.0
无语言模型	10.96	10.91
4-gram语言模型	7.98	7.88

基准测试CER结果

	COMMON VOICE 7.0	COMMON VOICE 8.0
无语言模型	4.28	4.22
4-gram语言模型	3.42	3.35

评估

请使用eval.py文件运行评估：

pip install mecab-python3 unidic-lite pykakasi
python eval.py --model_id vumichien/wav2vec2-xls-r-1b-japanese --dataset mozilla-foundation/common_voice_7_0 --config ja --split test --chunk_length_s 5.0 --stride_length_s 1.0 --log_outputs

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e-05
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：64
优化器：Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：100.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（WER）	字符错误率（CER）
2.2896	3.37	1500	0.4748	0.4013	0.1767
1.1608	6.74	3000	0.3350	0.3159	0.1456
1.1042	10.11	4500	0.3119	0.2971	0.1400
1.0494	13.48	6000	0.2974	0.2867	0.1353
1.0061	16.85	7500	0.2802	0.2746	0.1300
0.9629	20.22	9000	0.2844	0.2776	0.1326
0.9267	23.59	10500	0.2577	0.2603	0.1255
0.8984	26.96	12000	0.2508	0.2531	0.1226
0.8729	30.34	13500	0.2629	0.2606	0.1254
0.8546	33.71	15000	0.2402	0.2447	0.1193
0.8304	37.08	16500	0.2532	0.2472	0.1209
0.8075	40.45	18000	0.2439	0.2469	0.1198
0.7827	43.82	19500	0.2387	0.2372	0.1167
0.7627	47.19	21000	0.2344	0.2331	0.1147
0.7402	50.56	22500	0.2314	0.2299	0.1135
0.718	53.93	24000	0.2257	0.2267	0.1114
0.7016	57.3	25500	0.2204	0.2184	0.1089
0.6804	60.67	27000	0.2227	0.2181	0.1085
0.6625	64.04	28500	0.2138	0.2112	0.1058
0.6465	67.42	30000	0.2141	0.2081	0.1044
0.6238	70.79	31500	0.2172	0.2082	0.1050
0.6062	74.16	33000	0.2174	0.2058	0.1043
0.588	77.53	34500	0.2156	0.2034	0.1027
0.5722	80.9	36000	0.2162	0.2032	0.1029
0.5585	84.27	37500	0.2156	0.2022	0.1021
0.5456	87.64	39000	0.2126	0.1993	0.1009
0.5325	91.01	40500	0.2121	0.1966	0.1003
0.5229	94.38	42000	0.2104	0.1941	0.0991
0.5134	97.75	43500	0.2108	0.1948	0.0992