🚀 XLS - R - 300M 吉爾吉斯語 CV8
此模型是基於自動語音識別技術的模型,在吉爾吉斯語語音處理方面有一定表現,通過在特定數據集上微調,能為低保真度語音應用場景提供支持。
🚀 快速開始
該模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - KY 數據集上的微調版本。它在驗證集上取得了以下結果:
- 損失值:0.5497
- 詞錯誤率(Wer):0.2945
- 字符錯誤率(Cer):0.0791
✨ 主要特性
模型描述
關於模型架構的描述,請參考 facebook/wav2vec2 - xls - r - 300m。
模型的詞彙表由去除標點的西裡爾字母組成。
kenlm 語言模型是使用訓練和無效語料庫分割的文本構建的。
預期用途和限制
該模型預計對以下低保真度用例有一定幫助:
該模型不夠可靠,不能用作無障礙目的的即時字幕替代品,並且不應以侵犯 Common Voice 數據集的任何貢獻者或任何其他說話者隱私的方式使用。
訓練和評估數據
使用了通用語音官方分割的 train
、dev
和 other
的組合作為訓練數據。官方 test
分割的一半用作驗證數據,完整的 test
集用於最終評估。
訓練過程
在對吉爾吉斯語 CV8 示例句子調整最終的 CTC/LM 層時,XLS - R 模型的特徵化層被凍結。使用了斜坡學習率,初始熱身階段為 500 步,最大值為 0.0001,並在剩餘的 8100 步(300 個 epoch)中逐漸冷卻至 0。
訓練超參數
訓練期間使用了以下超參數:
屬性 |
詳情 |
學習率 |
0.0001 |
訓練批次大小 |
32 |
評估批次大小 |
8 |
隨機種子 |
42 |
梯度累積步數 |
4 |
總訓練批次大小 |
128 |
優化器 |
Adam,β=(0.9, 0.999),ε = 1e - 08 |
學習率調度器類型 |
線性 |
學習率調度器熱身步數 |
500 |
訓練輪數 |
300.0 |
混合精度訓練 |
原生 AMP |
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
字符錯誤率(Cer) |
3.1079 |
18.51 |
500 |
2.6795 |
0.9996 |
0.9825 |
0.8506 |
37.04 |
1000 |
0.4323 |
0.3718 |
0.0961 |
0.6821 |
55.55 |
1500 |
0.4105 |
0.3311 |
0.0878 |
0.6091 |
74.07 |
2000 |
0.4281 |
0.3168 |
0.0851 |
0.5429 |
92.58 |
2500 |
0.4525 |
0.3147 |
0.0842 |
0.5063 |
111.11 |
3000 |
0.4619 |
0.3144 |
0.0839 |
0.4661 |
129.62 |
3500 |
0.4660 |
0.3039 |
0.0818 |
0.4353 |
148.15 |
4000 |
0.4695 |
0.3083 |
0.0820 |
0.4048 |
166.65 |
4500 |
0.4909 |
0.3085 |
0.0824 |
0.3852 |
185.18 |
5000 |
0.5074 |
0.3048 |
0.0812 |
0.3567 |
203.69 |
5500 |
0.5111 |
0.3012 |
0.0810 |
0.3451 |
222.22 |
6000 |
0.5225 |
0.2982 |
0.0804 |
0.325 |
240.73 |
6500 |
0.5270 |
0.2955 |
0.0796 |
0.3089 |
259.25 |
7000 |
0.5381 |
0.2929 |
0.0793 |
0.2941 |
277.76 |
7500 |
0.5565 |
0.2923 |
0.0794 |
0.2945 |
296.29 |
8000 |
0.5495 |
0.2951 |
0.0789 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 許可證
本項目採用 Apache - 2.0 許可證。