wav2vec2-xls-r-300m-korean開源模型 - 精準韓語自動語音識別，免費部署好用

首頁

Wav2vec2 Xls R 300m Korean

由w11wo開發

基於XLS-R架構的韓語自動語音識別模型，在Zeroth Korean數據集上微調

語音識別

Transformers

韓語開源協議:Apache-2.0 #韓語語音識別 #XLS-R架構 #魯棒語音賽事

下載量 152

發布時間 : 3/2/2022

模型概述

該模型是基於XLS-R架構的自動語音識別模型，專門針對韓語進行優化，適用於語音轉文本任務。

模型特點

韓語優化

專門針對韓語語音識別進行微調，在韓語數據集上表現良好。

XLS-R架構

基於先進的XLS-R架構，具有強大的語音特徵提取能力。

多數據集驗證

在多個韓語數據集上進行評估，包括Zeroth Korean和魯棒語音賽事數據。

模型能力

韓語語音識別

語音轉文本

自動語音識別

使用案例

語音轉寫

韓語語音轉文本

將韓語語音內容轉換為文本

在Zeroth Korean數據集上WER為29.54%，CER為9.53%

語音識別挑戰

魯棒語音賽事

參與HuggingFace組織的魯棒語音識別挑戰

在開發數據上WER為76.26%，CER為38.67%

🚀 Wav2Vec2 XLS - R 300M 韓語模型

Wav2Vec2 XLS - R 300M 韓語模型是一個基於自動語音識別技術的模型。它基於 XLS - R 架構，在 Zeroth Korean 數據集上對 Wav2Vec2 - XLS - R - 300M 模型進行了微調，能夠有效處理韓語語音識別任務。

🚀 快速開始

該模型基於 HuggingFace 的 PyTorch 框架進行訓練，並且是 HuggingFace 組織的 Robust Speech Challenge Event 的一部分。所有訓練都在由 OVH 贊助的 Tesla V100 上完成。訓練所需的所有腳本可以在 Files and versions 標籤中找到，同時通過 Tensorboard 記錄的 Training metrics 也可查看。

✨ 主要特性

基於先進的 XLS - R 架構，在韓語語音識別任務上有良好表現。
經過在 Zeroth Korean 數據集上的微調，更適配韓語語音場景。
參與了 Robust Speech Challenge Event，具備一定的魯棒性。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	`wav2vec2 - xls - r - 300m - korean`
參數數量	300M
架構	XLS - R
訓練/驗證數據（文本）	`Zeroth Korean` 數據集

評估結果

該模型在評估中取得了以下結果：

數據集	損失	字錯率（WER）	字符錯誤率（CER）
`Zeroth Korean`	0.2089	29.54%	9.53%
`Robust Speech Event - Dev Data`	未提供	76.26%	38.67%

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

learning_rate：7.5e - 05
train_batch_size：8
eval_batch_size：8
seed：42
gradient_accumulation_steps：4
total_train_batch_size：32
optimizer：Adam，betas=(0.9, 0.999)，epsilon = 1e - 08
lr_scheduler_type：線性
lr_scheduler_warmup_steps：2000
num_epochs：50.0
mixed_precision_training：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）	字符錯誤率（Cer）
19.7138	0.72	500	19.6427	1.0	1.0
4.8039	1.44	1000	4.7842	1.0	1.0
4.5619	2.16	1500	4.5608	0.9992	0.9598
4.254	2.88	2000	4.2729	0.9955	0.9063
4.1905	3.6	2500	4.2257	0.9903	0.8758
4.0683	4.32	3000	3.9294	0.9937	0.7911
3.486	5.04	3500	2.7045	1.0012	0.5934
2.946	5.75	4000	1.9691	0.9425	0.4634
2.634	6.47	4500	1.5212	0.8807	0.3850
2.4066	7.19	5000	1.2551	0.8177	0.3601
2.2651	7.91	5500	1.0423	0.7650	0.3039
2.1828	8.63	6000	0.9599	0.7273	0.3106
2.1023	9.35	6500	0.9482	0.7161	0.3063
2.0536	10.07	7000	0.8242	0.6767	0.2860
1.9803	10.79	7500	0.7643	0.6563	0.2637
1.9468	11.51	8000	0.7319	0.6441	0.2505
1.9178	12.23	8500	0.6937	0.6320	0.2489
1.8515	12.95	9000	0.6443	0.6053	0.2196
1.8083	13.67	9500	0.6286	0.6122	0.2148
1.819	14.39	10000	0.6015	0.5986	0.2074
1.7684	15.11	10500	0.5682	0.5741	0.1982
1.7195	15.83	11000	0.5385	0.5592	0.2007
1.7044	16.55	11500	0.5362	0.5524	0.2097
1.6879	17.27	12000	0.5119	0.5489	0.2083
1.656	17.98	12500	0.4990	0.5362	0.1968
1.6122	18.7	13000	0.4561	0.5092	0.1900
1.5919	19.42	13500	0.4778	0.5225	0.1975
1.5896	20.14	14000	0.4563	0.5098	0.1859
1.5589	20.86	14500	0.4362	0.4940	0.1725
1.5353	21.58	15000	0.4140	0.4826	0.1580
1.5441	22.3	15500	0.4031	0.4742	0.1550
1.5116	23.02	16000	0.3916	0.4748	0.1545
1.4731	23.74	16500	0.3841	0.4810	0.1542
1.4647	24.46	17000	0.3752	0.4524	0.1475
1.4328	25.18	17500	0.3587	0.4476	0.1461
1.4129	25.9	18000	0.3429	0.4242	0.1366
1.4062	26.62	18500	0.3450	0.4251	0.1355
1.3928	27.34	19000	0.3297	0.4145	0.1322
1.3906	28.06	19500	0.3210	0.4185	0.1336
1.358	28.78	20000	0.3131	0.3970	0.1275
1.3445	29.5	20500	0.3069	0.3920	0.1276
1.3159	30.22	21000	0.3035	0.3961	0.1255
1.3044	30.93	21500	0.2952	0.3854	0.1242
1.3034	31.65	22000	0.2966	0.3772	0.1227
1.2963	32.37	22500	0.2844	0.3706	0.1208
1.2765	33.09	23000	0.2841	0.3567	0.1173
1.2438	33.81	23500	0.2734	0.3552	0.1137
1.2487	34.53	24000	0.2703	0.3502	0.1118
1.2249	35.25	24500	0.2650	0.3484	0.1142
1.2229	35.97	25000	0.2584	0.3374	0.1097
1.2374	36.69	25500	0.2568	0.3337	0.1095
1.2153	37.41	26000	0.2494	0.3327	0.1071
1.1925	38.13	26500	0.2518	0.3366	0.1077
1.1908	38.85	27000	0.2437	0.3272	0.1057
1.1858	39.57	27500	0.2396	0.3265	0.1044
1.1808	40.29	28000	0.2373	0.3156	0.1028
1.1842	41.01	28500	0.2356	0.3152	0.1026
1.1668	41.73	29000	0.2319	0.3188	0.1025
1.1448	42.45	29500	0.2293	0.3099	0.0995
1.1327	43.17	30000	0.2265	0.3047	0.0979
1.1307	43.88	30500	0.2222	0.3078	0.0989
1.1419	44.6	31000	0.2215	0.3038	0.0981
1.1231	45.32	31500	0.2193	0.3013	0.0972
1.139	46.04	32000	0.2162	0.3007	0.0968
1.1114	46.76	32500	0.2122	0.2982	0.0960
1.111	47.48	33000	0.2125	0.2946	0.0948
1.0982	48.2	33500	0.2099	0.2957	0.0953
1.109	48.92	34000	0.2092	0.2955	0.0955
1.0905	49.64	34500	0.2088	0.2954	0.0953