wav2vec2-xls-r-300m-gn-cv8-4オープンソース音声認識モデル - グアラニ語音声を高精度に認識する

Wav2vec2 Xls R 300m Gn Cv8 4

lgrisによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをCommon Voice 8.0データセットでファインチューニングした自動音声認識(ASR)モデルで、グアラニー語(gn)に最適化されています。

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルはグアラニー語の自動音声認識タスクに使用され、音声をテキストに変換できます。

グアラニー語に最適化

グアラニー語音声データセットで特別にファインチューニングされており、この言語の音声認識タスクに適しています

XLS-Rアーキテクチャベース

facebookのwav2vec2-xls-r-300mをベースモデルとして使用し、強力な音声特徴抽出能力を備えています

中規模モデル

3億パラメータの規模で、精度と計算効率のバランスを取っています

グアラニー語音声認識

音声からテキストへの変換

音声文字起こし

グアラニー語音声文字起こし

グアラニー語の音声内容をテキストに変換

Common Voice 8.0テストセットで68.45%の単語誤り率(WER)を達成

音声アシスタント

グアラニー語音声コマンド認識

グアラニー語の音声コマンドを理解するために使用

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後ほど提供予定です。

詳細情報は後ほど提供予定です。

詳細情報は後ほど提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
9.2216	16.65	300	3.2771	1.0
3.1804	33.32	600	2.2869	1.0
1.5856	49.97	900	0.9573	0.8772
1.0299	66.65	1200	0.9044	0.8082
0.8916	83.32	1500	0.9478	0.8056
0.8451	99.97	1800	0.8814	0.8107
0.7649	116.65	2100	0.9897	0.7826
0.7185	133.32	2400	0.9988	0.7621
0.6595	149.97	2700	1.0607	0.7749
0.6211	166.65	3000	1.1826	0.7877
0.59	183.32	3300	1.1060	0.7826
0.5383	199.97	3600	1.1826	0.7852
0.5205	216.65	3900	1.2148	0.8261
0.4786	233.32	4200	1.2710	0.7928
0.4482	249.97	4500	1.1943	0.7980
0.4149	266.65	4800	1.2449	0.8031
0.3904	283.32	5100	1.3100	0.7928
0.3619	299.97	5400	1.3125	0.7596
0.3496	316.65	5700	1.3699	0.7877
0.3277	333.32	6000	1.4344	0.8031
0.2958	349.97	6300	1.4093	0.7980
0.2883	366.65	6600	1.3296	0.7570
0.2598	383.32	6900	1.4026	0.7980
0.2564	399.97	7200	1.4847	0.8031
0.2408	416.65	7500	1.4896	0.8107
0.2266	433.32	7800	1.4232	0.7698
0.224	449.97	8100	1.5560	0.7903
0.2038	466.65	8400	1.5355	0.7724
0.1948	483.32	8700	1.4624	0.7621
0.1995	499.97	9000	1.5808	0.7724
0.1864	516.65	9300	1.5653	0.7698
0.18	533.32	9600	1.4868	0.7494
0.1689	549.97	9900	1.5379	0.7749
0.1624	566.65	10200	1.5936	0.7749
0.1537	583.32	10500	1.6436	0.7801
0.1455	599.97	10800	1.6401	0.7673
0.1437	616.65	11100	1.6069	0.7673
0.1452	633.32	11400	1.6041	0.7519
0.139	649.97	11700	1.5758	0.7545
0.1299	666.65	12000	1.5559	0.7545
0.127	683.32	12300	1.5776	0.7596
0.1264	699.97	12600	1.5790	0.7519
0.1209	716.65	12900	1.5805	0.7545