Kabyle Xlsr
这是一个基于facebook/wav2vec2-xls-r-300m模型在卡拜尔语数据集上微调的自动语音识别(ASR)模型
下载量 39
发布时间 : 3/2/2022
模型简介
该模型专门针对卡拜尔语进行优化,用于将语音转换为文本的任务
模型特点
多语言支持
基于XLS-R架构,具有跨语言能力
高效训练
使用50,000条精选数据进行训练,确保数据质量
优化性能
在Common Voice数据集上取得较低的WER和CER
模型能力
卡拜尔语语音识别
语音转文本
多语言语音处理
使用案例
语音转录
卡拜尔语语音转录
将卡拜尔语语音内容转换为文本
WER 0.3188, CER 0.0944
语音助手
卡拜尔语语音命令识别
用于开发支持卡拜尔语的语音助手应用
🚀 Akashpb13/Kabyle_xlsr
该模型是基于MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu数据集,对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它能有效处理语音识别相关任务,在语音识别评估中展现出较好的性能。
✨ 主要特性
- 基于预训练模型“facebook/wav2vec2 - xls - r - 300m”进行微调,能更好地适应特定语音数据集。
- 在评估集上取得了较好的结果,如Loss为0.159032,Wer为0.187934 。
📚 详细文档
模型描述
对“facebook/wav2vec2 - xls - r - 300m”进行了微调。
预期用途与限制
更多信息待补充。
训练和评估数据
- 训练数据:Common voice Kabyle train.tsv。由于数据集规模巨大,仅随机采样了50,000条记录进行训练。只考虑那些点赞数大于反对数的点,并且在合并Common Voice 7.0中所有给定数据集后去除了重复项。
训练过程
为创建训练数据集,将所有可能的数据集进行了合并,并采用了90 - 10的分割方式。
训练超参数
训练过程中使用了以下超参数:
属性 | 详情 |
---|---|
学习率 | 0.000096 |
训练批次大小 | 8 |
随机种子 | 13 |
梯度累积步数 | 4 |
学习率调度器类型 | cosine_with_restarts |
学习率调度器热身步数 | 500 |
训练轮数 | 30 |
混合精度训练 | Native AMP |
训练结果
步数 | 训练损失 | 验证损失 | 字错误率(Wer) |
---|---|---|---|
500 | 7.199800 | 3.130564 | 1.000000 |
1000 | 1.570200 | 0.718097 | 0.734682 |
1500 | 0.850800 | 0.524227 | 0.640532 |
2000 | 0.712200 | 0.468694 | 0.603454 |
2500 | 0.651200 | 0.413833 | 0.573025 |
3000 | 0.603100 | 0.403680 | 0.552847 |
3500 | 0.553300 | 0.372638 | 0.541719 |
4000 | 0.537200 | 0.353759 | 0.531191 |
4500 | 0.506300 | 0.359109 | 0.519601 |
5000 | 0.479600 | 0.343937 | 0.511336 |
5500 | 0.479800 | 0.338214 | 0.503948 |
6000 | 0.449500 | 0.332600 | 0.495221 |
6500 | 0.439200 | 0.323905 | 0.492635 |
7000 | 0.434900 | 0.310417 | 0.484555 |
7500 | 0.403200 | 0.311247 | 0.483262 |
8000 | 0.401500 | 0.295637 | 0.476566 |
8500 | 0.397000 | 0.301321 | 0.471672 |
9000 | 0.371600 | 0.295639 | 0.468440 |
9500 | 0.370700 | 0.294039 | 0.468902 |
10000 | 0.364900 | 0.291195 | 0.468440 |
10500 | 0.348300 | 0.284898 | 0.461098 |
11000 | 0.350100 | 0.281764 | 0.459805 |
11500 | 0.336900 | 0.291022 | 0.461606 |
12000 | 0.330700 | 0.280467 | 0.455234 |
12500 | 0.322500 | 0.271714 | 0.452694 |
13000 | 0.307400 | 0.289519 | 0.455465 |
13500 | 0.309300 | 0.281922 | 0.451217 |
14000 | 0.304800 | 0.271514 | 0.452186 |
14500 | 0.288100 | 0.286801 | 0.446830 |
15000 | 0.293200 | 0.276309 | 0.445399 |
15500 | 0.289800 | 0.287188 | 0.446230 |
16000 | 0.274800 | 0.286406 | 0.441243 |
16500 | 0.271700 | 0.284754 | 0.441520 |
17000 | 0.262500 | 0.275431 | 0.442167 |
17500 | 0.255500 | 0.276575 | 0.439858 |
18000 | 0.260200 | 0.269911 | 0.435425 |
18500 | 0.250600 | 0.270519 | 0.434686 |
19000 | 0.243300 | 0.267655 | 0.437826 |
19500 | 0.240600 | 0.277109 | 0.431731 |
20000 | 0.237200 | 0.266622 | 0.433994 |
20500 | 0.231300 | 0.273015 | 0.428868 |
21000 | 0.227200 | 0.263024 | 0.430161 |
21500 | 0.220400 | 0.272880 | 0.429607 |
22000 | 0.218600 | 0.272340 | 0.426883 |
22500 | 0.213100 | 0.277066 | 0.428407 |
23000 | 0.205000 | 0.278404 | 0.424020 |
23500 | 0.200900 | 0.270877 | 0.418987 |
24000 | 0.199000 | 0.289120 | 0.425821 |
24500 | 0.196100 | 0.275831 | 0.424066 |
25000 | 0.191100 | 0.282822 | 0.421850 |
25500 | 0.190100 | 0.275820 | 0.418248 |
26000 | 0.178800 | 0.279208 | 0.419125 |
26500 | 0.183100 | 0.271464 | 0.419218 |
27000 | 0.177400 | 0.280869 | 0.419680 |
27500 | 0.171800 | 0.279593 | 0.414924 |
28000 | 0.172900 | 0.276949 | 0.417648 |
28500 | 0.164900 | 0.283491 | 0.417786 |
29000 | 0.164800 | 0.283122 | 0.416078 |
29500 | 0.165500 | 0.281969 | 0.415801 |
30000 | 0.163800 | 0.283319 | 0.412753 |
30500 | 0.153500 | 0.285702 | 0.414046 |
31000 | 0.156500 | 0.285041 | 0.412615 |
31500 | 0.150900 | 0.284336 | 0.413723 |
32000 | 0.151800 | 0.285922 | 0.412292 |
32500 | 0.149200 | 0.289461 | 0.412153 |
33000 | 0.145400 | 0.291322 | 0.409567 |
33500 | 0.145600 | 0.294361 | 0.409614 |
34000 | 0.144200 | 0.290686 | 0.409059 |
34500 | 0.143400 | 0.289474 | 0.409844 |
35000 | 0.143500 | 0.290340 | 0.408367 |
35500 | 0.143200 | 0.289581 | 0.407351 |
36000 | 0.138400 | 0.292782 | 0.408736 |
36500 | 0.137900 | 0.289108 | 0.408044 |
37000 | 0.138200 | 0.292127 | 0.407166 |
37500 | 0.134600 | 0.291797 | 0.408413 |
38000 | 0.139800 | 0.290056 | 0.408090 |
38500 | 0.136500 | 0.291198 | 0.408090 |
39000 | 0.137700 | 0.289696 | 0.408044 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
评估命令
- 在
mozilla - foundation/common_voice_8_0
的test
分割上进行评估:
python eval.py --model_id Akashpb13/Kabyle_xlsr --dataset mozilla - foundation/common_voice_8_0 --config kab --split test
📄 许可证
本项目采用Apache - 2.0许可证。
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers 支持多种语言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别 日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers 支持多种语言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别 阿拉伯语
W
jonatasgrosman
2.3M
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98