wav2vec2-large-xls-r-300m-pt-colab开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Pt Colab

由 tonyalves 开发

基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的语音识别模型

语音识别

Transformers

开源协议:Apache-2.0 #语音识别 #多语言支持 #低词错误率

下载量 17

发布时间 : 3/2/2022

模型简介

该模型是一个用于语音识别任务的预训练模型，经过微调后能够将语音转换为文本。

模型特点

高效语音识别

基于wav2vec2架构，能够高效准确地将语音转换为文本

大规模预训练

基于3亿参数的大规模预训练模型，具有强大的特征提取能力

微调优化

在common_voice数据集上进行微调，优化了识别性能

模型能力

语音识别

音频转文本

自动语音转录

使用案例

语音转录

会议记录

自动将会议录音转换为文字记录

词错误率约30%

字幕生成

为视频内容自动生成字幕

语音助手

语音指令识别

识别用户语音指令

🚀 wav2vec2-large-xls-r-300m-pt-colab

本模型是 facebook/wav2vec2-xls-r-300m 在 common_voice 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.3637
字错率（Wer）：0.2982

🚀 快速开始

此模型为语音相关模型，可用于语音识别等任务。通过微调预训练模型，在特定数据集上进行训练，以适应特定的语音识别场景。

📦 安装指南

文档中未提及安装步骤，暂不提供。

💻 使用示例

文档中未提供代码示例，暂不展示。

📚 详细文档

模型信息

属性	详情
模型类型	微调后的 wav2vec2-large-xls-r-300m 模型
训练数据	common_voice 数据集

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0003
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：30
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
4.591	1.15	400	0.9128	0.6517
0.5049	2.31	800	0.4596	0.4437
0.2871	3.46	1200	0.3964	0.3905
0.2077	4.61	1600	0.3958	0.3744
0.1695	5.76	2000	0.4040	0.3720
0.1478	6.92	2400	0.3866	0.3651
0.1282	8.07	2800	0.3987	0.3674
0.1134	9.22	3200	0.4128	0.3688
0.1048	10.37	3600	0.3928	0.3561
0.0938	11.53	4000	0.4048	0.3619
0.0848	12.68	4400	0.4229	0.3555
0.0798	13.83	4800	0.3974	0.3468
0.0688	14.98	5200	0.3870	0.3503
0.0658	16.14	5600	0.3875	0.3351
0.061	17.29	6000	0.4133	0.3417
0.0569	18.44	6400	0.3915	0.3414
0.0526	19.6	6800	0.3957	0.3231
0.0468	20.75	7200	0.4110	0.3301
0.0407	21.9	7600	0.3866	0.3186
0.0384	23.05	8000	0.3976	0.3193
0.0363	24.21	8400	0.3910	0.3177
0.0313	25.36	8800	0.3656	0.3109
0.0293	26.51	9200	0.3712	0.3092
0.0277	27.66	9600	0.3613	0.3054
0.0249	28.82	10000	0.3783	0.3015
0.0234	29.97	10400	0.3637	0.2982