wav2vec2-xls-r-300m-cs-cv8开源语音识别模型

首页

Wav2vec2 Xls R 300m Cs Cv8

由 comodoro 开发

基于facebook/wav2vec2-xls-r-300m在Common Voice 8.0捷克语数据集上微调的语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #捷克语语音识别 #XLSR微调 #低CER

下载量 13

发布时间 : 3/2/2022

模型简介

该模型是针对捷克语优化的自动语音识别(ASR)模型，基于Wav2Vec2架构，在Common Voice 8.0数据集上微调，支持16kHz采样率的语音输入。

模型特点

高性能捷克语识别

在Common Voice 8.0测试集上达到10.3%的WER和2.6%的CER

基于XLSR架构

使用facebook的wav2vec2-xls-r-300m作为基础模型，具有强大的跨语言表示能力

无需语言模型

可直接使用，无需额外语言模型支持

模型能力

捷克语语音识别

16kHz音频处理

端到端语音转文本

使用案例

语音转写

语音笔记转文字

将捷克语语音笔记转换为可编辑文本

高准确率的文本输出

语音助手

用于捷克语语音助手应用的语音识别组件

低延迟的语音理解

语音分析

语音内容分析

分析捷克语语音内容并提取关键信息

支持后续自然语言处理任务

🚀 捷克语语音识别模型（wav2vec2-xls-r-300m-cs-cv8）

本模型基于facebook/wav2vec2-xls-r-300m在Common Voice 8.0数据集上微调而来，可用于捷克语的自动语音识别任务，能有效将语音转换为文本。

🚀 快速开始

直接使用模型（无需语言模型）

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "cs", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 预处理数据集
# 需要将音频文件读取为数组
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

评估模型

使用附带的eval.py脚本评估模型：

python eval.py --model_id comodoro/wav2vec2-xls-r-300m-cs-cv8 --dataset mozilla-foundation/common-voice_8_0 --split test --config cs

✨ 主要特性

基于facebook/wav2vec2-xls-r-300m模型在Common Voice 8.0数据集上进行微调，适用于捷克语语音识别。
训练过程中采用了不同阶段的超参数调整，以达到更好的性能。

📦 安装指南

文档未提及安装相关内容，可参考模型依赖库（如transformers、torchaudio等）的官方安装说明进行安装。

📚 详细文档

模型描述

该模型是在捷克语上对facebook/wav2vec2-large-xlsr-53进行微调得到的，使用的是Common Voice数据集。使用此模型时，请确保语音输入的采样率为16kHz。

评估结果

训练时在评估集上取得了以下结果：

Loss: 0.2327
Wer: 0.1608
Cer: 0.0376

使用语言模型运行eval.py脚本的结果：

WER: 0.10281503199350225
CER: 0.02622802241689026

训练和评估数据

训练使用了Common Voice 8.0的train和validation数据集。

训练过程

训练超参数

第一阶段训练使用的超参数：

学习率：7e-05
训练批次大小：32
评估批次大小：8
随机种子：42
梯度累积步数：20
总训练批次大小：640
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：150
混合精度训练：Native AMP

第二阶段训练使用的超参数：

学习率：0.001
训练批次大小：32
评估批次大小：8
随机种子：42
梯度累积步数：20
总训练批次大小：640
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：50
混合精度训练：Native AMP

训练结果

第一阶段训练结果：

训练损失	轮数	步数	验证损失	词错误率（Wer）	字符错误率（Cer）
7.2926	8.06	250	3.8497	1.0	1.0
3.417	16.13	500	3.2852	1.0	0.9857
2.0264	24.19	750	0.7099	0.7342	0.1768
0.4018	32.25	1000	0.6188	0.6415	0.1551
0.2444	40.32	1250	0.6632	0.6362	0.1600
0.1882	48.38	1500	0.6070	0.5783	0.1388
0.153	56.44	1750	0.6425	0.5720	0.1377
0.1214	64.51	2000	0.6363	0.5546	0.1337
0.1011	72.57	2250	0.6310	0.5222	0.1224
0.0879	80.63	2500	0.6353	0.5258	0.1253
0.0782	88.7	2750	0.6078	0.4904	0.1127
0.0709	96.76	3000	0.6465	0.4960	0.1154
0.0661	104.82	3250	0.6622	0.4945	0.1166
0.0616	112.89	3500	0.6440	0.4786	0.1104
0.0579	120.95	3750	0.6815	0.4887	0.1144
0.0549	129.03	4000	0.6603	0.4780	0.1105
0.0527	137.09	4250	0.6652	0.4749	0.1090
0.0506	145.16	4500	0.6958	0.4846	0.1133

进一步微调（架构略有不同，学习率更高）的结果：

训练损失	轮数	步数	验证损失	词错误率（Wer）	字符错误率（Cer）
0.576	8.06	250	0.2411	0.2340	0.0502
0.2564	16.13	500	0.2305	0.2097	0.0492
0.2018	24.19	750	0.2371	0.2059	0.0494
0.1549	32.25	1000	0.2298	0.1844	0.0435
0.1224	40.32	1250	0.2288	0.1725	0.0407
0.1004	48.38	1500	0.2327	0.1608	0.0376