wav2vec2-large-xls-r-300m-bg开源语音识别模型 - 精准识别保加利亚语语音

首页

Wav2vec2 Large Xls R 300m Bg

由 anuragshas 开发

基于facebook/wav2vec2-xls-r-300m在Common Voice 8保加利亚语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #保加利亚语语音识别 #低词错误率 #多场景适配

下载量 1,469

发布时间 : 3/2/2022

模型简介

这是一个针对保加利亚语优化的自动语音识别(ASR)模型，基于XLS-R-300M架构，在Mozilla Common Voice 8数据集上微调而成。

模型特点

多数据集评估

在Common Voice 8和鲁棒语音赛事数据集上进行了全面评估

高性能

在Common Voice 8测试集上取得21.195%的WER和4.786%的CER

优化训练

经过50轮精心调优的训练过程，逐步降低损失和错误率

模型能力

保加利亚语语音识别

音频转文本

长音频处理(支持分块处理)

使用案例

语音转录

语音备忘录转录

将保加利亚语语音备忘录转换为可搜索的文本

准确率约80% (WER 21.195%)

语音助手

为保加利亚语语音助手提供语音识别能力

语音分析

语音内容分析

分析保加利亚语语音内容以提取关键信息

🚀 XLS-R-300M - 保加利亚语

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 数据集上的微调版本。它在评估集上取得了以下成果：

损失：0.2473
词错误率（Wer）：0.3002

🚀 快速开始

本模型是基于预训练模型在特定数据集上微调得到，可用于保加利亚语的自动语音识别任务。以下是评估和推理的相关信息。

✨ 主要特性

基于预训练模型 facebook/wav2vec2-xls-r-300m 微调，适用于保加利亚语语音识别。
提供了详细的训练超参数和训练结果记录。
给出了不同数据集上的评估命令和推理代码示例。

📦 安装指南

文档未提及具体安装步骤，可参考原预训练模型 facebook/wav2vec2-xls-r-300m 的安装说明。

💻 使用示例

基础用法

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0

高级用法

带语言模型的推理

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "и надутият му ката блоонкурем взе да се събира"

📚 详细文档

模型信息

属性	详情
模型类型	XLS-R-300M - 保加利亚语
训练数据	MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 数据集

评估结果

本模型在以下任务和数据集上的评估结果如下：

任务	数据集	测试词错误率 (WER)	测试字符错误率 (CER)
自动语音识别	Common Voice 8	21.195	4.786
自动语音识别	Robust Speech Event - Dev Data	32.667	12.452
自动语音识别	Robust Speech Event - Test Data	31.03	未提及

评估集结果

无语言模型	带语言模型 (运行 `./eval.py`)
30.07	21.195

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：7.5e-05
训练批次大小：32
评估批次大小：16
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：50.0
混合精度训练：原生自动混合精度 (Native AMP)

训练结果

训练损失	轮数	步数	验证损失	词错误率 (Wer)
3.1589	3.48	400	3.0830	1.0
2.8921	6.96	800	2.6605	0.9982
1.3049	10.43	1200	0.5069	0.5707
1.1349	13.91	1600	0.4159	0.5041
1.0686	17.39	2000	0.3815	0.4746
0.999	20.87	2400	0.3541	0.4343
0.945	24.35	2800	0.3266	0.4132
0.9058	27.83	3200	0.2969	0.3771
0.8672	31.3	3600	0.2802	0.3553
0.8313	34.78	4000	0.2662	0.3380
0.8068	38.26	4400	0.2528	0.3181
0.7796	41.74	4800	0.2537	0.3073
0.7621	45.22	5200	0.2503	0.3036
0.7611	48.7	5600	0.2477	0.2991