phoneme_test_5_svオープンソースドイツ語音声認識モデル - 無料で高精度なドイツ語音声文字起こしを実現

Phoneme Test 5 Sv

patrickvonplatenによって開発

このモデルは、facebook/wav2vec2 - xls - r - 300mをMULTILINGUAL_LIBRISPEECH - ドイツ語10時間データセットで微調整したバージョンで、ドイツ語音声認識タスクに使用されます。

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

これはドイツ語用に最適化された自動音声認識(ASR)モデルで、wav2vec2 - xls - r - 300mアーキテクチャを基に微調整され、ドイツ語音声認識タスクで優れた性能を発揮します。

ドイツ語最適化

ドイツ語音声認識タスクに特化して微調整され、ドイツ語データセットで優れた性能を発揮します。

効率的な学習

3億パラメータのベースモデルを基に、限られたデータ(10時間)で効率的に微調整されます。

低単語誤り率

評価セットで0.1520の単語誤り率(WER)を達成し、優れた性能を示します。

ドイツ語音声認識

音声をテキストに変換

多言語音声処理

音声文字起こし

ドイツ語会議記録

ドイツ語会議の録音を自動的にテキストに起こします。

高い精度の文字起こし結果で、単語誤り率はわずか15.2%です。

ドイツ語音声アシスタント

ドイツ語音声アシスタントの音声認識モジュールに使用されます。

教育

ドイツ語学習アプリ

学習者がドイツ語の発音と聴解を練習するのを支援します。

このモデルは、MULTILINGUAL_LIBRISPEECH - GERMAN 10hデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

トレーニング中に以下のハイパーパラメータが使用されました。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.0132	7.25	500	2.9393	1.0
2.9241	14.49	1000	2.8734	1.0
1.0766	21.74	1500	0.2773	0.2488
0.8416	28.99	2000	0.2224	0.1990
0.8048	36.23	2500	0.2063	0.1792
0.7664	43.48	3000	0.2088	0.1748
0.6571	50.72	3500	0.2042	0.1668
0.7014	57.97	4000	0.2136	0.1649
0.6171	65.22	4500	0.2139	0.1641
0.6609	72.46	5000	0.2144	0.1621
0.6318	79.71	5500	0.2129	0.1600
0.6222	86.96	6000	0.2124	0.1582
0.608	94.2	6500	0.2255	0.1639
0.6099	101.45	7000	0.2265	0.1622
0.6069	108.7	7500	0.2246	0.1593
0.5929	115.94	8000	0.2323	0.1617
0.6218	123.19	8500	0.2287	0.1566
0.5751	130.43	9000	0.2275	0.1563
0.5181	137.68	9500	0.2316	0.1579
0.6306	144.93	10000	0.2372	0.1556
0.5874	152.17	10500	0.2362	0.1533
0.5546	159.42	11000	0.2342	0.1543
0.6294	166.67	11500	0.2381	0.1536
0.5989	173.91	12000	0.2360	0.1527
0.5697	181.16	12500	0.2399	0.1526
0.5379	188.41	13000	0.2375	0.1523
0.5022	195.65	13500	0.2395	0.1519