Kabyle_xlsr开源自动语音识别模型 - 免费部署精准识别卡拜尔语语音

Home

Kabyle Xlsr

Developed by Akashpb13

这是一个基于facebook/wav2vec2-xls-r-300m模型在卡拜尔语数据集上微调的自动语音识别(ASR)模型

语音识别

Transformers

OtherOpen Source License:Apache-2.0 #卡拜尔语语音识别 #低词错误率 #多方言支持

Downloads 39

Release Time : 3/2/2022

Model Overview

该模型专门针对卡拜尔语进行优化，用于将语音转换为文本的任务

Model Features

多语言支持

基于XLS-R架构，具有跨语言能力

高效训练

使用50,000条精选数据进行训练，确保数据质量

优化性能

在Common Voice数据集上取得较低的WER和CER

Model Capabilities

卡拜尔语语音识别

语音转文本

多语言语音处理

Use Cases

语音转录

卡拜尔语语音转录

将卡拜尔语语音内容转换为文本

WER 0.3188, CER 0.0944

语音助手

卡拜尔语语音命令识别

用于开发支持卡拜尔语的语音助手应用

🚀 Akashpb13/Kabyle_xlsr

该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu数据集，对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它能有效处理语音识别相关任务，在语音识别评估中展现出较好的性能。

✨ 主要特性

基于预训练模型“facebook/wav2vec2 - xls - r - 300m”进行微调，能更好地适应特定语音数据集。
在评估集上取得了较好的结果，如Loss为0.159032，Wer为0.187934 。

📚 详细文档

模型描述

对“facebook/wav2vec2 - xls - r - 300m”进行了微调。

预期用途与限制

更多信息待补充。

训练和评估数据

训练数据：Common voice Kabyle train.tsv。由于数据集规模巨大，仅随机采样了50,000条记录进行训练。只考虑那些点赞数大于反对数的点，并且在合并Common Voice 7.0中所有给定数据集后去除了重复项。

训练过程

为创建训练数据集，将所有可能的数据集进行了合并，并采用了90 - 10的分割方式。

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.000096
训练批次大小	8
随机种子	13
梯度累积步数	4
学习率调度器类型	cosine_with_restarts
学习率调度器热身步数	500
训练轮数	30
混合精度训练	Native AMP

训练结果

步数	训练损失	验证损失	字错误率(Wer)
500	7.199800	3.130564	1.000000
1000	1.570200	0.718097	0.734682
1500	0.850800	0.524227	0.640532
2000	0.712200	0.468694	0.603454
2500	0.651200	0.413833	0.573025
3000	0.603100	0.403680	0.552847
3500	0.553300	0.372638	0.541719
4000	0.537200	0.353759	0.531191
4500	0.506300	0.359109	0.519601
5000	0.479600	0.343937	0.511336
5500	0.479800	0.338214	0.503948
6000	0.449500	0.332600	0.495221
6500	0.439200	0.323905	0.492635
7000	0.434900	0.310417	0.484555
7500	0.403200	0.311247	0.483262
8000	0.401500	0.295637	0.476566
8500	0.397000	0.301321	0.471672
9000	0.371600	0.295639	0.468440
9500	0.370700	0.294039	0.468902
10000	0.364900	0.291195	0.468440
10500	0.348300	0.284898	0.461098
11000	0.350100	0.281764	0.459805
11500	0.336900	0.291022	0.461606
12000	0.330700	0.280467	0.455234
12500	0.322500	0.271714	0.452694
13000	0.307400	0.289519	0.455465
13500	0.309300	0.281922	0.451217
14000	0.304800	0.271514	0.452186
14500	0.288100	0.286801	0.446830
15000	0.293200	0.276309	0.445399
15500	0.289800	0.287188	0.446230
16000	0.274800	0.286406	0.441243
16500	0.271700	0.284754	0.441520
17000	0.262500	0.275431	0.442167
17500	0.255500	0.276575	0.439858
18000	0.260200	0.269911	0.435425
18500	0.250600	0.270519	0.434686
19000	0.243300	0.267655	0.437826
19500	0.240600	0.277109	0.431731
20000	0.237200	0.266622	0.433994
20500	0.231300	0.273015	0.428868
21000	0.227200	0.263024	0.430161
21500	0.220400	0.272880	0.429607
22000	0.218600	0.272340	0.426883
22500	0.213100	0.277066	0.428407
23000	0.205000	0.278404	0.424020
23500	0.200900	0.270877	0.418987
24000	0.199000	0.289120	0.425821
24500	0.196100	0.275831	0.424066
25000	0.191100	0.282822	0.421850
25500	0.190100	0.275820	0.418248
26000	0.178800	0.279208	0.419125
26500	0.183100	0.271464	0.419218
27000	0.177400	0.280869	0.419680
27500	0.171800	0.279593	0.414924
28000	0.172900	0.276949	0.417648
28500	0.164900	0.283491	0.417786
29000	0.164800	0.283122	0.416078
29500	0.165500	0.281969	0.415801
30000	0.163800	0.283319	0.412753
30500	0.153500	0.285702	0.414046
31000	0.156500	0.285041	0.412615
31500	0.150900	0.284336	0.413723
32000	0.151800	0.285922	0.412292
32500	0.149200	0.289461	0.412153
33000	0.145400	0.291322	0.409567
33500	0.145600	0.294361	0.409614
34000	0.144200	0.290686	0.409059
34500	0.143400	0.289474	0.409844
35000	0.143500	0.290340	0.408367
35500	0.143200	0.289581	0.407351
36000	0.138400	0.292782	0.408736
36500	0.137900	0.289108	0.408044
37000	0.138200	0.292127	0.407166
37500	0.134600	0.291797	0.408413
38000	0.139800	0.290056	0.408090
38500	0.136500	0.291198	0.408090
39000	0.137700	0.289696	0.408044

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

评估命令

在mozilla - foundation/common_voice_8_0的test分割上进行评估：

python eval.py --model_id Akashpb13/Kabyle_xlsr --dataset mozilla - foundation/common_voice_8_0 --config kab --split test

📄 许可证

本项目采用Apache - 2.0许可证。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご