wav2vec2-large-lv60_phoneme开源语音识别模型 - 专注音素识别任务免费可用

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k Simplified

由 excalibur12 开发

基于facebook/wav2vec2-large-lv60在TIMIT数据集上微调的语音识别模型，专注于音素识别任务。

下载量 271

发布时间 : 6/17/2024

模型简介

该模型是针对英语音素识别任务优化的语音识别模型，在简化版TIMIT音素集上训练，具有较低的音素错误率。

高效音素识别

在TIMIT评估集上达到8.38%的低音素错误率

简化音素集

对原始TIMIT音素集进行了合并简化处理，提高了识别效率

基于预训练模型

基于facebook/wav2vec2-large-lv60预训练模型微调，具有强大的语音特征提取能力

英语音素识别

语音特征提取

自动语音识别

语音研究

音素分析

用于语音学和语言学研究中音素级别的分析

8.38%的音素错误率

语音识别系统

语音识别前端

作为语音识别系统的音素识别组件

训练损失	轮数	步数	验证损失	音素错误率
7.3185	1.04	300	3.6437	0.9617
2.5644	2.08	600	0.7668	0.1559
0.6782	3.11	900	0.3794	0.1231
0.4542	4.15	1200	0.3278	0.1164
0.3834	5.19	1500	0.3043	0.1151
0.3407	6.23	1800	0.2872	0.1119
0.3179	7.27	2100	0.2842	0.1110
0.2988	8.3	2400	0.2834	0.1102
0.2834	9.34	2700	0.2826	0.1100
0.2814	10.38	3000	0.2796	0.1100