Central_kurdish_xlsr開源自動語音識別模型 - 支持庫爾德語中部方言識別

首頁

Central Kurdish Xlsr

由Akashpb13開發

這是一個基於facebook/wav2vec2-xls-r-300m模型在庫爾德語中部方言上微調的自動語音識別模型，在Common Voice 8.0數據集上訓練。

語音識別

Transformers

其他開源協議:Apache-2.0 #庫爾德語語音識別 #XLS-R微調 #低CER表現

下載量 45

發布時間 : 3/2/2022

模型概述

該模型專門用於庫爾德語中部方言的自動語音識別任務，能夠將語音轉換為文本。

模型特點

庫爾德語中部方言支持

專門針對庫爾德語中部方言優化的語音識別模型

基於XLS-R架構

使用facebook的wav2vec2-xls-r-300m作為基礎模型，具有強大的語音特徵提取能力

多數據集訓練

在Common Voice數據集和魯棒語音事件數據集上進行了訓練和評估

模型能力

庫爾德語語音識別

語音轉文本

使用案例

語音轉錄

庫爾德語語音轉錄

將庫爾德語中部方言的語音轉換為文本

WER 0.3675, CER 0.0783

語音助手

庫爾德語語音命令識別

用於庫爾德語語音助手或語音控制系統的語音識別模塊

🚀 Akashpb13/Central_kurdish_xlsr

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在評估集（訓練數據集的10%與無效數據、報告數據、其他數據和開發數據集合並而成）上取得了以下結果：

損失：0.348580
詞錯誤率（Wer）：0.401147

✨ 主要特性

基於微調的facebook/wav2vec2-xls-r-300m模型，適用於中庫爾德語的自動語音識別任務。
在Common Voice 8和Robust Speech Event - Dev Data等數據集上有一定的性能表現。

📚 詳細文檔

模型描述

對"facebook/wav2vec2-xls-r-300m"進行了微調。

預期用途與限制

需要更多信息。

訓練和評估數據

訓練數據： Common voice Central Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。僅考慮那些贊成票多於反對票的點，並且在合併Common voice 7.0中給出的所有數據集後去除了重複項。

訓練過程

為了創建訓練數據集，將所有可能的數據集進行了追加，並採用了90 - 10的分割方式。

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.000095637994662983496
訓練批次大小：16
評估批次大小：16
隨機種子：13
梯度累積步數：2
學習率調度器類型：cosine_with_restarts
學習率調度器熱身步數：200
訓練輪數：100
混合精度訓練：Native AMP

訓練結果

步驟	訓練損失	驗證損失	詞錯誤率（Wer）
500	5.097800	2.190326	1.001207
1000	0.797500	0.331392	0.576819
1500	0.405100	0.262009	0.549049
2000	0.322100	0.248178	0.479626
2500	0.264600	0.258866	0.488983
3000	0.228300	0.261523	0.469665
3500	0.201000	0.270135	0.451856
4000	0.180900	0.279302	0.448536
4500	0.163800	0.280921	0.459704
5000	0.147300	0.319249	0.471778
5500	0.137600	0.289546	0.449140
6000	0.132000	0.311350	0.458195
6500	0.117100	0.316726	0.432840
7000	0.109200	0.302210	0.439481
7500	0.104900	0.325913	0.439481
8000	0.097500	0.329446	0.431935
8500	0.088600	0.345259	0.425898
9000	0.084900	0.342891	0.428313
9500	0.080900	0.353081	0.424389
10000	0.075600	0.347063	0.424992
10500	0.072800	0.330086	0.424691
11000	0.068100	0.350658	0.421974
11500	0.064700	0.342949	0.413522
12000	0.061500	0.341704	0.415334
12500	0.059500	0.346279	0.411410
13000	0.057400	0.349901	0.407184
13500	0.056400	0.347733	0.402656
14000	0.053300	0.344899	0.405976
14500	0.052900	0.346708	0.402656
15000	0.050600	0.344118	0.400845
15500	0.050200	0.348396	0.402958
16000	0.049800	0.348312	0.401751
16500	0.051900	0.348372	0.401147
17000	0.049800	0.348580	0.401147

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.1
Tokenizers 0.10.3

評估命令

在`mozilla-foundation/common_voice_8_0`數據集的`test`分割上進行評估

python eval.py --model_id Akashpb13/Central_kurdish_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ckb --split test

📄 許可證

本項目採用Apache - 2.0許可證。

📦 模型指標

屬性	詳情
模型類型	適用於中庫爾德語的自動語音識別模型
訓練數據	Common voice Central Kurdish的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv（僅考慮贊成票多於反對票的點，去除重複項）
測試詞錯誤率（Test WER）	0.36754389884276845（Common Voice 8和Robust Speech Event - Dev Data數據集）
測試字符錯誤率（Test CER）	0.07827896768334217（Common Voice 8和Robust Speech Event - Dev Data數據集）