wav2vec2-xls-r-300m-ca開源語音識別模型 - 支持加泰羅尼亞語自動語音識別

首頁

Wav2vec2 Xls R 300m Ca

由PereLluis13開發

基於facebook/wav2vec2-xls-r-300m在加泰羅尼亞語數據集上微調的語音識別模型，支持自動語音識別任務。

語音識別

Transformers

其他開源協議:Apache-2.0 #加泰羅尼亞語語音識別 #多領域數據集訓練 #低詞錯誤率

下載量 116

發布時間 : 3/2/2022

模型概述

該模型是針對加泰羅尼亞語的自動語音識別(ASR)模型，在多個加泰羅尼亞語數據集上進行了微調，能夠將語音轉換為文本。

模型特點

多數據集訓練

在MOZILLA-FOUNDATION/COMMON_VOICE_8_0、tv3_parla和parlament_parla等多個加泰羅尼亞語數據集上進行了微調

數字轉換支持

使用特殊處理將數字轉換為文字形式，提高數字識別準確率

優化的訓練流程

採用精心設計的預處理流程和訓練超參數，包括線性學習率調度和AMP混合精度訓練

模型能力

加泰羅尼亞語語音識別

語音轉文本

數字識別

使用案例

媒體轉錄

電視節目字幕生成

為加泰羅尼亞語電視節目自動生成字幕

在tv3_parla數據集上WER為23.32%

會議記錄

議會會議記錄

自動轉錄加泰羅尼亞議會會議內容

在parlament_parla數據集上WER為8.05%

語音助手

加泰羅尼亞語語音輸入

為加泰羅尼亞語語音助手提供語音識別能力

在Common Voice數據集上WER為13.17%

🚀 wav2vec2-xls-r-300m-ca

本模型是在MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - CA、tv3_parla和parlament_parla數據集上對facebook/wav2vec2-xls-r-300m進行微調後的版本。它在評估集（針對這三個數據集）上取得了以下結果：

損失：0.2472
詞錯誤率（Wer）：0.1499

✨ 主要特性

基於預訓練模型facebook/wav2vec2-xls-r-300m進行微調，適用於加泰羅尼亞語的自動語音識別任務。
在多個數據集上進行訓練和評估，具有較好的性能表現。

📚 詳細文檔

模型描述

請查看原始的facebook/wav2vec2-xls-r-1b模型卡片。這只是該模型的微調版本。

預期用途和限制

與任何基於眾包數據訓練的模型一樣，該模型可能會體現出用於訓練的數據和模型的偏差和特性。此外，由於這是一個語音識別模型，對於加泰羅尼亞語中一些資源較少的方言，其性能可能會有所下降。

訓練和評估數據

更多信息待補充。

訓練過程

數據經過預處理，去除了不在加泰羅尼亞語字母表中的字符。此外，使用@ccoreilly提供的代碼將數字進行了口語化處理，該代碼可以在text/文件夾中找到，也可以在此處查看。

訓練超參數

訓練期間使用了以下超參數：

學習率：7.5e - 05
訓練批次大小：32
評估批次大小：32
隨機種子：42
梯度累積步數：4
總訓練批次大小：128
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：2000
訓練輪數：18.0
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

請查看Tensorboard標籤頁，以查看訓練過程和評估結果。該模型在訓練過程中對每個數據集的測試分割進行了評估。

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
6.2099	0.09	500	3.4125	1.0
2.9961	0.18	1000	2.9224	1.0
2.2147	0.26	1500	0.6521	0.5568
1.3017	0.35	2000	0.3153	0.2761
1.1196	0.44	2500	0.2444	0.2367
1.0712	0.53	3000	0.2324	0.2132
1.052	0.62	3500	0.2173	0.2032
1.2813	2.13	4000	0.3326	0.2099
1.2365	2.4	4500	0.3224	0.2003
1.2193	2.66	5000	0.3198	0.1957
1.2072	2.93	5500	0.3063	0.1933
1.213	3.2	6000	0.3051	0.1980
1.2074	3.46	6500	0.3012	0.1879
1.1918	3.73	7000	0.2947	0.1829
1.1893	4.0	7500	0.2895	0.1807
1.1751	4.26	8000	0.2878	0.1776
1.1628	4.53	8500	0.2835	0.1731
1.1577	4.79	9000	0.2816	0.1761
1.1448	5.06	9500	0.2757	0.1740
1.1407	5.33	10000	0.2768	0.1798
1.1401	5.59	10500	0.2780	0.1816
1.1333	5.86	11000	0.2748	0.1750
1.1571	6.13	11500	0.2808	0.1708
1.1505	6.39	12000	0.2726	0.1692
1.1519	6.66	12500	0.2749	0.1654
1.136	6.93	13000	0.2765	0.1643
1.1326	7.19	13500	0.2706	0.1668
1.1342	7.46	14000	0.2665	0.1638
1.1286	7.72	14500	0.2669	0.1636
1.1243	7.99	15000	0.2619	0.1623
1.1173	8.26	15500	0.2652	0.1604
1.1129	8.52	16000	0.2610	0.1598
1.1091	8.79	16500	0.2608	0.1584
1.1053	9.06	17000	0.2633	0.1664
1.1004	9.32	17500	0.2594	0.1662
1.0995	9.59	18000	0.2623	0.1569
1.0964	9.86	18500	0.2624	0.1597
1.09	10.12	19000	0.2577	0.1578
1.089	10.39	19500	0.2574	0.1531
1.0864	10.66	20000	0.2556	0.1546
1.0806	10.92	20500	0.2548	0.1583
1.0842	11.19	21000	0.2550	0.1542
1.0805	11.45	21500	0.2561	0.1524
1.0722	11.72	22000	0.2540	0.1566
1.0763	11.99	22500	0.2549	0.1572
1.0835	12.25	23000	0.2586	0.1521
1.0883	12.52	23500	0.2583	0.1519
1.0888	12.79	24000	0.2551	0.1582
1.0933	13.05	24500	0.2628	0.1537
1.0799	13.32	25000	0.2600	0.1508
1.0804	13.59	25500	0.2620	0.1475
1.0814	13.85	26000	0.2537	0.1517
1.0693	14.12	26500	0.2560	0.1542
1.0724	14.38	27000	0.2540	0.1574
1.0704	14.65	27500	0.2548	0.1626
1.0729	14.92	28000	0.2548	0.1601
1.0724	15.18	28500	0.2511	0.1512
1.0655	15.45	29000	0.2498	0.1490
1.0608	15.98	30000	0.2487	0.1481
1.0541	16.52	31000	0.2468	0.1504
1.0584	17.05	32000	0.2467	0.1493
1.0507	17.58	33000	0.2481	0.1517

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.18.3
Tokenizers 0.11.0

📄 許可證

本模型使用Apache 2.0許可證。

致謝

感謝@ccoreilly和@gullabi，他們貢獻了自己的資源和知識，使得該模型得以實現。

模型指標信息表格

屬性	詳情
模型類型	基於`facebook/wav2vec2-xls-r-300m`微調的自動語音識別模型
訓練數據	MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - CA、`collectivat/tv3_parla`、`projecte-aina/parlament_parla`
評估指標（部分數據集）	- `mozilla-foundation/common_voice_8_0 ca`：測試詞錯誤率（WER）13.170091241317552，測試字符錯誤率（CER）3.356726205534543 - `projecte-aina/parlament_parla ca`：測試詞錯誤率（WER）8.048005647723261，測試字符錯誤率（CER）2.240912911020065 - `collectivat/tv3_parla ca`：測試詞錯誤率（WER）23.320629787889285，測試字符錯誤率（CER）10.439216202089989 - `speech-recognition-community-v2/dev_data ca`：測試詞錯誤率（WER）31.99671115046487，測試字符錯誤率（CER）15.820020687277325 - `Robust Speech Event - Test Data`：測試詞錯誤率（WER）22.04