wav2vec2-xls-r-300m-ukオープンソース音声認識モデル

Wav2vec2 Xls R 300m Uk

robinhadによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをウクライナ語データセットでファインチューニングした自動音声認識(ASR)モデルで、Common Voiceウクライナ語テストセットで12.22%の単語誤り率(WER)を達成しました。

ダウンロード数 72

リリース時間 : 3/2/2022

モデル概要

このモデルはウクライナ語の自動音声認識タスク専用に設計されており、ウクライナ語の音声をテキストに変換できます。

低い単語誤り率

Common Voiceウクライナ語テストセットでわずか12.22%の単語誤り率(WER)を達成し、優れた性能を発揮

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300mアーキテクチャを採用し、強力な音声特徴抽出能力を備えています

ウクライナ語最適化

ウクライナ語に特化してファインチューニングされており、ウクライナ語音声認識に最適

ウクライナ語音声認識

音声からテキストへの変換

音声書き起こし

ウクライナ語音声から文字へ

ウクライナ語の音声コンテンツを編集可能なテキストに変換

87.78%の精度(WER=12.22%)

音声アシスタント

ウクライナ語音声アシスタント

ウクライナ語ユーザー向けの音声インタラクション機能を提供

このモデルは、facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

トレーニング中に以下のハイパーパラメータが使用されました。

トレーニング損失	エポック	ステップ	文字誤り率 (Cer)	検証損失	単語誤り率 (Wer)
9.0008	1.68	200	1.0	3.7590	1.0
3.4972	3.36	400	1.0	3.3933	1.0
3.3432	5.04	600	1.0	3.2617	1.0
3.2421	6.72	800	1.0	3.0712	1.0
1.9839	7.68	1000	0.1400	0.7204	0.6561
0.8017	9.36	1200	0.0766	0.3734	0.4159
0.5554	11.04	1400	0.0583	0.2621	0.3237
0.4309	12.68	1600	0.0486	0.2085	0.2753
0.3697	14.36	1800	0.0421	0.1746	0.2427
0.3293	16.04	2000	0.0388	0.1597	0.2243
0.2934	17.72	2200	0.0358	0.1428	0.2083
0.2704	19.4	2400	0.0333	0.1326	0.1949
0.2547	21.08	2600	0.0322	0.1255	0.1882
0.2366	22.76	2800	0.0309	0.1211	0.1815
0.2183	24.44	3000	0.0294	0.1159	0.1727
0.2115	26.13	3200	0.0280	0.1117	0.1661
0.1968	27.8	3400	0.0274	0.1063	0.1622
0.1922	29.48	3600	0.0269	0.1082	0.1598
0.1847	31.17	3800	0.0260	0.1061	0.1550
0.1715	32.84	4000	0.0252	0.1014	0.1496
0.1689	34.53	4200	0.0250	0.1012	0.1492
0.1655	36.21	4400	0.0243	0.0999	0.1450
0.1585	37.88	4600	0.0239	0.0967	0.1432
0.1492	39.57	4800	0.0237	0.0978	0.1421
0.1491	41.25	5000	0.0236	0.0963	0.1412
0.1453	42.93	5200	0.0230	0.0979	0.1373
0.1386	44.61	5400	0.0227	0.0959	0.1353
0.1387	46.29	5600	0.0226	0.0927	0.1355
0.1329	47.97	5800	0.0224	0.0951	0.1341
0.1295	49.65	6000	0.0219	0.0950	0.1306
0.1287	51.33	6200	0.0216	0.0937	0.1290
0.1277	53.02	6400	0.0215	0.0963	0.1294
0.1201	54.69	6600	0.0213	0.0959	0.1282
0.1199	56.38	6800	0.0215	0.0944	0.1286
0.1221	58.06	7000	0.0209	0.0938	0.1249
0.1145	59.68	7200	0.0208	0.0941	0.1254
0.1143	61.36	7400	0.0209	0.0941	0.1249
0.1143	63.04	7600	0.0209	0.0940	0.1248
0.1137	64.72	7800	0.0205	0.0931	0.1234
0.1125	66.4	8000	0.0204	0.0927	0.1222