wav2vec2-xls-r-300m-korean-lmオープンソースモデル - 高精度な韓語の自動音声認識を実現可能

ホーム

Wav2vec2 Xls R 300m Korean Lm

w11woによって開発

XLS-Rアーキテクチャに基づく韓国語自動音声認識モデルで、Zeroth韓国語データセットで微調整され、5-gram言語モデルが追加されています

音声認識

Transformers

韓国語オープンソースライセンス:Apache-2.0 #韓国語音声認識 #XLS-Rアーキテクチャ #低CER最適化

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルは韓国語自動音声認識(ASR)のための深層学習モデルで、FacebookのWav2Vec2-XLS-R-300Mアーキテクチャを微調整しており、韓国語音声からテキストへの変換タスクに適しています。

モデル特徴

韓国語最適化

韓国語音声認識に特化して微調整されており、Zeroth韓国語データセットで良好な性能を発揮します

5-gram言語モデル強化

Open Subtitles韓国語サブセットで訓練された5-gram言語モデルを追加し、認識精度を向上させています

ロバスト性テスト

HuggingFaceが主催するロバスト音声チャレンジに参加し、様々な条件下で性能をテストしました

モデル能力

韓国語音声認識

音声からテキストへの変換

5-gram言語モデルデコードをサポート

使用事例

音声文字起こし

韓国語音声文字起こし

韓国語音声コンテンツをテキストに変換します

Zeroth韓国語データセットで30.94% WERと7.97% CERを達成

音声アシスタント

韓国語音声コマンド認識

韓国語音声コマンドを認識し理解します

ロバスト音声イベントテストデータで66.47% WERを達成

🚀 Wav2Vec2 XLS-R 300M Korean LM

Wav2Vec2 XLS-R 300M Korean LMは、XLS-Rアーキテクチャに基づく自動音声認識モデルです。このモデルは、Wav2Vec2-XLS-R-300MをZeroth Koreanデータセットでファインチューニングしたものです。その後、Open Subtitlesの韓国語サブセットで学習させた5-gram言語モデルが追加されました。

このモデルは、HuggingFaceのPyTorchフレームワークを使用して学習され、HuggingFaceが主催するRobust Speech Challenge Eventの一部として開発されました。すべての学習は、OVHが提供するTesla V100で行われました。

学習に使用されたすべての必要なスクリプトは、Files and versionsタブにあり、Tensorboardを介して記録されたTraining metricsも参照できます。

N-gram言語モデルの学習については、HuggingFaceが提供するblog post tutorialに従いました。

✨ 主な機能

このモデルは韓国語の自動音声認識に特化しており、XLS-Rアーキテクチャと言語モデルを組み合わせることで高精度な音声認識を実現します。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	`wav2vec2-xls-r-300m-korean-lm`
訓練データ	`Zeroth Korean` データセット

評価結果

言語モデルを使用しない場合の評価結果は次の通りです。

データセット	WER	CER
`Zeroth Korean`	29.54%	9.53%
`Robust Speech Event - Dev Data`	76.26%	38.67%

言語モデルを追加した場合の評価結果は次の通りです。

データセット	WER	CER
`Zeroth Korean`	30.94%	7.97%
`Robust Speech Event - Dev Data`	68.34%	37.08%

学習手順

学習プロセスには言語モデルの追加は含まれていません。以下の結果は、元の自動音声認識モデル学習から引用されたものです。

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは次の通りです。

learning_rate: 7.5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 32
optimizer: Adam (betas=(0.9, 0.999)、epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000
num_epochs: 50.0
mixed_precision_training: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	WER	CER
19.7138	0.72	500	19.6427	1.0	1.0
4.8039	1.44	1000	4.7842	1.0	1.0
4.5619	2.16	1500	4.5608	0.9992	0.9598
4.254	2.88	2000	4.2729	0.9955	0.9063
4.1905	3.6	2500	4.2257	0.9903	0.8758
4.0683	4.32	3000	3.9294	0.9937	0.7911
3.486	5.04	3500	2.7045	1.0012	0.5934
2.946	5.75	4000	1.9691	0.9425	0.4634
2.634	6.47	4500	1.5212	0.8807	0.3850
2.4066	7.19	5000	1.2551	0.8177	0.3601
2.2651	7.91	5500	1.0423	0.7650	0.3039
2.1828	8.63	6000	0.9599	0.7273	0.3106
2.1023	9.35	6500	0.9482	0.7161	0.3063
2.0536	10.07	7000	0.8242	0.6767	0.2860
1.9803	10.79	7500	0.7643	0.6563	0.2637
1.9468	11.51	8000	0.7319	0.6441	0.2505
1.9178	12.23	8500	0.6937	0.6320	0.2489
1.8515	12.95	9000	0.6443	0.6053	0.2196
1.8083	13.67	9500	0.6286	0.6122	0.2148
1.819	14.39	10000	0.6015	0.5986	0.2074
1.7684	15.11	10500	0.5682	0.5741	0.1982
1.7195	15.83	11000	0.5385	0.5592	0.2007
1.7044	16.55	11500	0.5362	0.5524	0.2097
1.6879	17.27	12000	0.5119	0.5489	0.2083
1.656	17.98	12500	0.4990	0.5362	0.1968
1.6122	18.7	13000	0.4561	0.5092	0.1900
1.5919	19.42	13500	0.4778	0.5225	0.1975
1.5896	20.14	14000	0.4563	0.5098	0.1859
1.5589	20.86	14500	0.4362	0.4940	0.1725
1.5353	21.58	15000	0.4140	0.4826	0.1580
1.5441	22.3	15500	0.4031	0.4742	0.1550
1.5116	23.02	16000	0.3916	0.4748	0.1545
1.4731	23.74	16500	0.3841	0.4810	0.1542
1.4647	24.46	17000	0.3752	0.4524	0.1475
1.4328	25.18	17500	0.3587	0.4476	0.1461
1.4129	25.9	18000	0.3429	0.4242	0.1366
1.4062	26.62	18500	0.3450	0.4251	0.1355
1.3928	27.34	19000	0.3297	0.4145	0.1322
1.3906	28.06	19500	0.3210	0.4185	0.1336
1.358	28.78	20000	0.3131	0.3970	0.1275
1.3445	29.5	20500	0.3069	0.3920	0.1276
1.3159	30.22	21000	0.3035	0.3961	0.1255
1.3044	30.93	21500	0.2952	0.3854	0.1242
1.3034	31.65	22000	0.2966	0.3772	0.1227
1.2963	32.37	22500	0.2844	0.3706	0.1208
1.2765	33.09	23000	0.2841	0.3567	0.1173
1.2438	33.81	23500	0.2734	0.3552	0.1137
1.2487	34.53	24000	0.2703	0.3502	0.1118
1.2249	35.25	24500	0.2650	0.3484	0.1142
1.2229	35.97	25000	0.2584	0.3374	0.1097
1.2374	36.69	25500	0.2568	0.3337	0.1095
1.2153	37.41	26000	0.2494	0.3327	0.1071
1.1925	38.13	26500	0.2518	0.3366	0.1077
1.1908	38.85	27000	0.2437	0.3272	0.1057
1.1858	39.57	27500	0.2396	0.3265	0.1044
1.1808	40.29	28000	0.2373	0.3156	0.1028
1.1842	41.01	28500	0.2356	0.3152	0.1026
1.1668	41.73	29000	0.2319	0.3188	0.1025
1.1448	42.45	29500	0.2293	0.3099	0.0995
1.1327	43.17	30000	0.2265	0.3047	0.0979
1.1307	43.88	30500	0.2222	0.3078	0.0989
1.1419	44.6	31000	0.2215	0.3038	0.0981
1.1231	45.32	31500	0.2193	0.3013	0.0972
1.139	46.04	32000	0.2162	0.3007	0.0968
1.1114	46.76	32500	0.2122	0.2982	0.0960
1.111	47.48	33000	0.2125	0.2946	0.0948
1.0982	48.2	33500	0.2099	0.2957	0.0953
1.109	48.92	34000	0.2092	0.2955	0.0955
1.0905	49.64	34500	0.2088	0.2954	0.0953