wav2vec2-large-xls-r-300m-pt-cvオープンソースモデル - ポルトガル語の音声内容を高精度に識別

Wav2vec2 Large Xls R 300m Pt Cv

lgrisによって開発

facebook/wav2vec2-xls-r-300mをベースに、Common Voiceポルトガル語データセットで微調整した自動音声認識モデル

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルは、ポルトガル語の自動音声認識(ASR)タスクに最適化されたwav2vec2モデルで、Common Voiceデータセットで微調整され、ポルトガル語の音声をテキストに変換できます。

ポルトガル語最適化

ポルトガル語の音声認識に特化して最適化と微調整が行われました

大規模事前学習モデルをベース

facebook/wav2vec2-xls-r-300mモデルをベースに微調整され、その強力な音声特徴抽出能力を引き継いでいます

複数データセットでの評価

Common Voiceとロバスト音声イベントなどの複数のデータセットで評価されました

ポルトガル語音声認識

音声をテキストに変換

音声文字起こし

ポルトガル語音声文字起こし

ポルトガル語の音声内容をテキストに変換

Common VoiceテストセットでのWERは24.29%

音声アシスタント

ポルトガル語音声コマンド認識

ポルトガル語の音声アシスタントシステムでの音声コマンド認識に使用

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、自動音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.9035	0.2	100	4.2750	1.0
3.3275	0.41	200	3.0334	1.0
3.0016	0.61	300	2.9494	1.0
2.1874	0.82	400	1.4355	0.8721
1.09	1.02	500	0.9987	0.7165
0.8251	1.22	600	0.7886	0.6406
0.6927	1.43	700	0.6753	0.5801
0.6143	1.63	800	0.6300	0.5509
0.5451	1.84	900	0.5586	0.5156
0.5003	2.04	1000	0.5493	0.5027
0.3712	2.24	1100	0.5271	0.4872
0.3486	2.45	1200	0.4953	0.4817
0.3498	2.65	1300	0.4619	0.4538
0.3112	2.86	1400	0.4570	0.4387
0.3013	3.06	1500	0.4437	0.4147
0.2136	3.27	1600	0.4176	0.4124
0.2131	3.47	1700	0.4281	0.4194
0.2099	3.67	1800	0.3864	0.3949
0.1925	3.88	1900	0.3926	0.3913
0.1709	4.08	2000	0.3764	0.3804
0.1406	4.29	2100	0.3787	0.3742
0.1342	4.49	2200	0.3645	0.3693
0.1305	4.69	2300	0.3463	0.3625
0.1298	4.9	2400	0.3418	0.3581