Kabyle Xlsr
這是一個基於facebook/wav2vec2-xls-r-300m模型在卡拜爾語數據集上微調的自動語音識別(ASR)模型
下載量 39
發布時間 : 3/2/2022
模型概述
該模型專門針對卡拜爾語進行優化,用於將語音轉換為文本的任務
模型特點
多語言支持
基於XLS-R架構,具有跨語言能力
高效訓練
使用50,000條精選數據進行訓練,確保數據質量
優化性能
在Common Voice數據集上取得較低的WER和CER
模型能力
卡拜爾語語音識別
語音轉文本
多語言語音處理
使用案例
語音轉錄
卡拜爾語語音轉錄
將卡拜爾語語音內容轉換為文本
WER 0.3188, CER 0.0944
語音助手
卡拜爾語語音命令識別
用於開發支持卡拜爾語的語音助手應用
🚀 Akashpb13/Kabyle_xlsr
該模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu數據集,對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它能有效處理語音識別相關任務,在語音識別評估中展現出較好的性能。
✨ 主要特性
- 基於預訓練模型“facebook/wav2vec2 - xls - r - 300m”進行微調,能更好地適應特定語音數據集。
- 在評估集上取得了較好的結果,如Loss為0.159032,Wer為0.187934 。
📚 詳細文檔
模型描述
對“facebook/wav2vec2 - xls - r - 300m”進行了微調。
預期用途與限制
更多信息待補充。
訓練和評估數據
- 訓練數據:Common voice Kabyle train.tsv。由於數據集規模巨大,僅隨機採樣了50,000條記錄進行訓練。只考慮那些點贊數大於反對數的點,並且在合併Common Voice 7.0中所有給定數據集後去除了重複項。
訓練過程
為創建訓練數據集,將所有可能的數據集進行了合併,並採用了90 - 10的分割方式。
訓練超參數
訓練過程中使用了以下超參數:
屬性 | 詳情 |
---|---|
學習率 | 0.000096 |
訓練批次大小 | 8 |
隨機種子 | 13 |
梯度累積步數 | 4 |
學習率調度器類型 | cosine_with_restarts |
學習率調度器熱身步數 | 500 |
訓練輪數 | 30 |
混合精度訓練 | Native AMP |
訓練結果
步數 | 訓練損失 | 驗證損失 | 字錯誤率(Wer) |
---|---|---|---|
500 | 7.199800 | 3.130564 | 1.000000 |
1000 | 1.570200 | 0.718097 | 0.734682 |
1500 | 0.850800 | 0.524227 | 0.640532 |
2000 | 0.712200 | 0.468694 | 0.603454 |
2500 | 0.651200 | 0.413833 | 0.573025 |
3000 | 0.603100 | 0.403680 | 0.552847 |
3500 | 0.553300 | 0.372638 | 0.541719 |
4000 | 0.537200 | 0.353759 | 0.531191 |
4500 | 0.506300 | 0.359109 | 0.519601 |
5000 | 0.479600 | 0.343937 | 0.511336 |
5500 | 0.479800 | 0.338214 | 0.503948 |
6000 | 0.449500 | 0.332600 | 0.495221 |
6500 | 0.439200 | 0.323905 | 0.492635 |
7000 | 0.434900 | 0.310417 | 0.484555 |
7500 | 0.403200 | 0.311247 | 0.483262 |
8000 | 0.401500 | 0.295637 | 0.476566 |
8500 | 0.397000 | 0.301321 | 0.471672 |
9000 | 0.371600 | 0.295639 | 0.468440 |
9500 | 0.370700 | 0.294039 | 0.468902 |
10000 | 0.364900 | 0.291195 | 0.468440 |
10500 | 0.348300 | 0.284898 | 0.461098 |
11000 | 0.350100 | 0.281764 | 0.459805 |
11500 | 0.336900 | 0.291022 | 0.461606 |
12000 | 0.330700 | 0.280467 | 0.455234 |
12500 | 0.322500 | 0.271714 | 0.452694 |
13000 | 0.307400 | 0.289519 | 0.455465 |
13500 | 0.309300 | 0.281922 | 0.451217 |
14000 | 0.304800 | 0.271514 | 0.452186 |
14500 | 0.288100 | 0.286801 | 0.446830 |
15000 | 0.293200 | 0.276309 | 0.445399 |
15500 | 0.289800 | 0.287188 | 0.446230 |
16000 | 0.274800 | 0.286406 | 0.441243 |
16500 | 0.271700 | 0.284754 | 0.441520 |
17000 | 0.262500 | 0.275431 | 0.442167 |
17500 | 0.255500 | 0.276575 | 0.439858 |
18000 | 0.260200 | 0.269911 | 0.435425 |
18500 | 0.250600 | 0.270519 | 0.434686 |
19000 | 0.243300 | 0.267655 | 0.437826 |
19500 | 0.240600 | 0.277109 | 0.431731 |
20000 | 0.237200 | 0.266622 | 0.433994 |
20500 | 0.231300 | 0.273015 | 0.428868 |
21000 | 0.227200 | 0.263024 | 0.430161 |
21500 | 0.220400 | 0.272880 | 0.429607 |
22000 | 0.218600 | 0.272340 | 0.426883 |
22500 | 0.213100 | 0.277066 | 0.428407 |
23000 | 0.205000 | 0.278404 | 0.424020 |
23500 | 0.200900 | 0.270877 | 0.418987 |
24000 | 0.199000 | 0.289120 | 0.425821 |
24500 | 0.196100 | 0.275831 | 0.424066 |
25000 | 0.191100 | 0.282822 | 0.421850 |
25500 | 0.190100 | 0.275820 | 0.418248 |
26000 | 0.178800 | 0.279208 | 0.419125 |
26500 | 0.183100 | 0.271464 | 0.419218 |
27000 | 0.177400 | 0.280869 | 0.419680 |
27500 | 0.171800 | 0.279593 | 0.414924 |
28000 | 0.172900 | 0.276949 | 0.417648 |
28500 | 0.164900 | 0.283491 | 0.417786 |
29000 | 0.164800 | 0.283122 | 0.416078 |
29500 | 0.165500 | 0.281969 | 0.415801 |
30000 | 0.163800 | 0.283319 | 0.412753 |
30500 | 0.153500 | 0.285702 | 0.414046 |
31000 | 0.156500 | 0.285041 | 0.412615 |
31500 | 0.150900 | 0.284336 | 0.413723 |
32000 | 0.151800 | 0.285922 | 0.412292 |
32500 | 0.149200 | 0.289461 | 0.412153 |
33000 | 0.145400 | 0.291322 | 0.409567 |
33500 | 0.145600 | 0.294361 | 0.409614 |
34000 | 0.144200 | 0.290686 | 0.409059 |
34500 | 0.143400 | 0.289474 | 0.409844 |
35000 | 0.143500 | 0.290340 | 0.408367 |
35500 | 0.143200 | 0.289581 | 0.407351 |
36000 | 0.138400 | 0.292782 | 0.408736 |
36500 | 0.137900 | 0.289108 | 0.408044 |
37000 | 0.138200 | 0.292127 | 0.407166 |
37500 | 0.134600 | 0.291797 | 0.408413 |
38000 | 0.139800 | 0.290056 | 0.408090 |
38500 | 0.136500 | 0.291198 | 0.408090 |
39000 | 0.137700 | 0.289696 | 0.408044 |
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.18.3
- Tokenizers 0.10.3
評估命令
- 在
mozilla - foundation/common_voice_8_0
的test
分割上進行評估:
python eval.py --model_id Akashpb13/Kabyle_xlsr --dataset mozilla - foundation/common_voice_8_0 --config kab --split test
📄 許可證
本項目採用Apache - 2.0許可證。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98