wav2vec2-large-xlsr-53-german-cv9オープンソースモデル - 無料でドイツ語自動音声認識を実現

Wav2vec2 Large Xlsr 53 German Cv9

oliverguhrによって開発

これはFacebookのwav2vec2-large-xlsr-53モデルを基に、ドイツ語Common Voice 9.0データセットでファインチューニングした自動音声認識(ASR)モデルです。

ダウンロード数 98

リリース時間 : 6/13/2022

モデル概要

このモデルはドイツ語音声認識タスク専用で、Common Voice 9.0ドイツ語テストセットでWER 9.48、CER 1.92という優れた性能を達成しました。

高性能ドイツ語音声認識

Common Voice 9.0ドイツ語テストセットでWERはわずか9.48、CERは1.92

大規模事前学習モデルベース

Facebookのwav2vec2-large-xlsr-53モデルをファインチューニングしており、強力な音声表現能力を継承

言語モデル融合対応

言語モデル(LM)と組み合わせると、WERをさらに7.49まで低下可能

ドイツ語音声認識

音声からテキストへ

自動音声転写

音声転写

ドイツ語音声転写

ドイツ語音声コンテンツをテキストに変換

WER 9.48, CER 1.92

音声アシスタント

ドイツ語音声コマンド認識

ドイツ語音声アシスタントでの音声コマンド認識に使用

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_9_0 - DEデータセットで./facebook/wav2vec2-large-xlsr-53をファインチューニングしたものです。テストセットでは、以下の結果を達成しています。

このモデルは、自動音声認識（Automatic Speech Recognition）タスクに特化しており、ドイツ語の音声を高精度に認識することができます。

プロパティ	詳細
モデルタイプ	wav2vec2-large-xlsr-53-german-cv9
訓練データセット	mozilla-foundation/common_voice_9_0 (ドイツ語)

タスク	データセット	評価指標	値
自動音声認識	Common Voice 9 (ドイツ語)	Test WER	9.480663281840769
自動音声認識	Common Voice 9 (ドイツ語)	Test CER	1.9167347943074394
自動音声認識	Common Voice 9 (ドイツ語, +LM)	Test WER (+LM)	7.49027762774117
自動音声認識	Common Voice 9 (ドイツ語, +LM)	Test CER (+LM)	1.9167347943074394
自動音声認識	Common Voice 6.1 (ドイツ語)	Test WER	8.122005951166668
自動音声認識	Common Voice 6.1 (ドイツ語)	Test CER	1.
自動音声認識	Common Voice 6.1 (ドイツ語, +LM)	Test WER (+LM)	6.1453182045203544
自動音声認識	Common Voice 6.1 (ドイツ語, +LM)	Test CER (+LM)	1.5247743373447677

以下のハイパーパラメータが訓練中に使用されました。

訓練損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	評価WER (Eval Wer)
0.4129	1.0	3557	0.3015	0.2499
0.2121	2.0	7114	0.1596	0.1567
0.1455	3.0	10671	0.1377	0.1354
0.1436	4.0	14228	0.1301	0.1282
0.1144	5.0	17785	0.1225	0.1245
0.1219	6.0	21342	0.1254	0.1208
0.104	7.0	24899	0.1198	0.1232
0.1016	8.0	28456	0.1149	0.1174
0.1093	9.0	32013	0.1186	0.1186
0.0858	10.0	35570	0.1182	0.1164
0.102	11.0	39127	0.1191	0.1186
0.0834	12.0	42684	0.1161	0.1096
0.0916	13.0	46241	0.1147	0.1107
0.0811	14.0	49798	0.1174	0.1136
0.0814	15.0	53355	0.1132	0.1114
0.0865	16.0	56912	0.1134	0.1097
0.0701	17.0	60469	0.1096	0.1054
0.0891	18.0	64026	0.1110	0.1076
0.071	19.0	67583	0.1141	0.1074
0.0726	20.0	71140	0.1094	0.1093
0.0647	21.0	74697	0.1088	0.1095
0.0643	22.0	78254	0.1105	0.1044
0.0764	23.0	81811	0.1072	0.1042
0.0605	24.0	85368	0.1095	0.1026
0.0722	25.0	88925	0.1144	0.1066
0.0597	26.0	92482	0.1087	0.1022
0.062	27.0	96039	0.1073	0.1027
0.0536	28.0	99596	0.1068	0.1027
0.0616	29.0	103153	0.1097	0.1037
0.0642	30.0	106710	0.1117	0.1020
0.0555	31.0	110267	0.1109	0.0990
0.0632	32.0	113824	0.1104	0.0977
0.0482	33.0	117381	0.1108	0.0958
0.0601	34.0	120938	0.1095	0.0957
0.0508	35.0	124495	0.1079	0.0973
0.0526	36.0	128052	0.1068	0.0967
0.0487	37.0	131609	0.1081	0.0966
0.0495	38.0	135166	0.1099	0.0956
0.0528	39.0	138723	0.1091	0.0923
0.0439	40.0	142280	0.1111	0.0928
0.0467	41.0	145837	0.1131	0.0943
0.0407	42.0	149394	0.1115	0.0944
0.046	43.0	152951	0.1106	0.0935
0.0447	44.0	156508	0.1083	0.0919
0.0434	45.0	160065	0.1093	0.0909
0.0472	46.0	163622	0.1092	0.0921
0.0414	47.0	167179	0.1106	0.0922
0.0501	48.0	170736	0.1094	0.0918
0.0388	49.0	174293	0.1099	0.0918
0.0428	50.0	177850	0.1103	0.0915