xlsr_kurmanji_kurdish开源自动语音识别模型 - 精准识别库尔曼吉库尔德语语音

首页

Xlsr Kurmanji Kurdish

由 Akashpb13 开发

该模型是基于facebook/wav2vec2-xls-r-300m在库尔曼吉库尔德语数据集上微调的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #库尔曼吉方言ASR #低CER语音识别 #多方言鲁棒性

下载量 60

发布时间 : 3/2/2022

模型简介

这是一个针对库尔曼吉库尔德语优化的自动语音识别模型，基于wav2vec2-xls-r-300m架构微调，在Common Voice数据集上表现良好。

模型特点

库尔曼吉方言支持

专门针对库尔曼吉库尔德语方言优化的语音识别能力

高效训练

采用混合精度训练和余弦退火学习率调度器优化训练过程

多数据集整合

整合了Common Voice多个子集的数据进行训练，提高模型鲁棒性

模型能力

库尔曼吉库尔德语语音识别

自动语音转文本

多方言支持

使用案例

语音转写

库尔德语语音转录

将库尔曼吉方言的语音内容转换为文本

在Common Voice测试集上WER为0.3307

语音助手

库尔德语语音交互

为库尔德语用户提供语音控制界面

🚀 Akashpb13/xlsr_kurmanji_kurdish

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在评估集（由训练数据集的10%与无效数据、报告数据、其他数据和开发数据集合并而成）上取得了以下结果：

损失：0.292389
词错误率（Wer）：0.388585

✨ 主要特性

支持自动语音识别任务。
基于facebook的wav2vec2 - xls - r - 300m模型进行微调。
在特定的库尔德语数据集上进行训练，具有一定的针对性。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

评估命令示例

对`mozilla - foundation/common_voice_8_0`数据集的`test`分割进行评估

python eval.py --model_id Akashpb13/xlsr_kurmanji_kurdish --dataset mozilla - foundation/common_voice_8_0 --config kmr --split test

📚 详细文档

模型描述

对“facebook/wav2vec2 - xls - r - 300m”进行了微调。

预期用途与限制

需要更多信息。

训练和评估数据

训练数据：Common voice Kurmanji Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。仅考虑那些赞成票多于反对票的点，并且在将Common voice 7.0中给出的所有数据集连接起来后去除了重复项。

训练过程

为了创建训练数据集，将所有可能的数据集进行了合并，并采用了90 - 10的分割方式。

训练超参数

训练期间使用了以下超参数：

学习率：0.000096
训练批次大小：16
评估批次大小：16
随机种子：13
梯度累积步数：16
学习率调度器类型：cosine_with_restarts
学习率调度器热身步数：200
训练轮数：100
混合精度训练：Native AMP

训练结果

步骤	训练损失	验证损失	词错误率（Wer）
200	4.382500	3.183725	1.000000
400	2.870200	0.996664	0.781117
600	0.609900	0.333755	0.445052
800	0.326800	0.305729	0.403157
1000	0.255000	0.290734	0.391621
1200	0.226300	0.292389	0.388585

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.1
Tokenizers 0.10.3

🔧 技术细节

文档未提供足够的技术实现细节，故跳过此章节。

📄 许可证

本项目采用Apache - 2.0许可证。

📊 模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	Common voice Kurmanji Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv
评估数据集	mozilla - foundation/common_voice_8_0、speech - recognition - community - v2/dev_data
评估指标	词错误率（Wer）、字符错误率（CER）
评估结果	在Common Voice 8数据集上，Test WER为0.33073206986250464，Test CER为0.08035244447163924；在Robust Speech Event - Dev Data数据集上，Test WER为0.33073206986250464，Test CER为0.08035244447163924