xlsr_hungarian_new开源语音识别模型 - 免费部署助力匈牙利语语音识别

首页

Xlsr Hungarian New

由 Akashpb13 开发

该模型是基于facebook/wav2vec2-xls-r-300m在匈牙利语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #匈牙利语语音识别 #低词错误率 #多场景适配

下载量 27

发布时间 : 3/2/2022

模型简介

针对匈牙利语优化的自动语音识别模型，在Common Voice 8.0数据集上训练

模型特点

匈牙利语优化

专门针对匈牙利语语音识别进行微调

基于XLS-R架构

使用facebook的wav2vec2-xls-r-300m作为基础模型

高质量训练数据

使用Common Voice 8.0数据集，并经过严格筛选

模型能力

匈牙利语语音转文本

连续语音识别

对话语音处理

使用案例

语音转录

匈牙利语语音转文字

将匈牙利语语音内容转换为文本

WER 0.285, CER 0.061

语音助手

匈牙利语语音指令识别

用于匈牙利语语音助手的前端语音识别

🚀 Akashpb13/xlsr_hungarian_new

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - hu数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集（训练数据集的10%与无效数据、报告数据、其他数据和开发数据集合并而成）上取得了以下成果：

损失值：0.197464
词错误率（Wer）：0.330094

✨ 主要特性

多数据集评估：在多个数据集上进行自动语音识别任务的评估，包括Common Voice 8和Robust Speech Event的开发与测试数据。
明确的评估指标：提供了词错误率（WER）和字符错误率（CER）等评估指标。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

基础用法

若要在mozilla - foundation/common_voice_8_0数据集的test分割上进行评估，可使用以下命令：

python eval.py --model_id Akashpb13/xlsr_hungarian_new --dataset mozilla - foundation/common_voice_8_0 --config hu --split test

📚 详细文档

模型描述

对“facebook/wav2vec2 - xls - r - 300m”进行了微调。

预期用途与限制

需要更多相关信息。

训练和评估数据

训练数据：Common voice匈牙利语的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。仅考虑那些赞成票多于反对票的点，并且在合并Common voice 7.0中给出的所有数据集后去除了重复项。

训练过程

为创建训练数据集，将所有可能的数据集进行了拼接，并采用了90 - 10的分割方式。

训练超参数

训练期间使用了以下超参数：

学习率：0.000095637994662983496
训练批次大小：16
评估批次大小：16
随机种子：13
梯度累积步数：16
学习率调度器类型：cosine_with_restarts
学习率调度器热身步数：500
训练轮数：100
混合精度训练：Native AMP

训练结果

步数	训练损失	验证损失	词错误率（Wer）
500	4.785300	0.952295	0.796236
1000	0.535800	0.217474	0.381613
1500	0.258400	0.205524	0.345056
2000	0.202800	0.198680	0.336264
2500	0.182700	0.197464	0.330094

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

🔧 技术细节

模型评估指标

任务	数据集	评估指标	值
自动语音识别	Common Voice 8	测试词错误率（Test WER）	0.2851621517163838
自动语音识别	Common Voice 8	测试字符错误率（Test CER）	0.06112982522287432
自动语音识别	Robust Speech Event - Dev Data	测试词错误率（Test WER）	0.2851621517163838
自动语音识别	Robust Speech Event - Dev Data	测试字符错误率（Test CER）	0.06112982522287432
自动语音识别	Robust Speech Event - Test Data	测试词错误率（Test WER）	47.15