wav2vec2-Phonemeオープンソース音声認識モデル - 音素認識タスクを高精度に実現

ホーム

Wav2vec2 Phoneme

Bluecastによって開発

facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、音素認識タスクに特化

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声認識 #低い単語誤り率 #多言語サポート

ダウンロード数 189

リリース時間 : 4/24/2024

モデル概要

このモデルはfacebook/wav2vec2-large-xlsr-53を未知のデータセットでファインチューニングしたバージョンで、主に音声認識タスクに使用され、特に音素レベルの認識に焦点を当てています。

モデル特徴

効率的な音素認識

音素認識タスク向けに最適化され、検証セットで12.81%の単語誤り率を達成

大規模事前学習モデルベース

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしており、その強力な音声特徴抽出能力を継承

軽量なファインチューニング

比較的小さなトレーニングバッチと適度なトレーニングエポック数でファインチューニングを完了し、リソース消費が低い

モデル能力

音声認識

音素レベル分析

音響特徴抽出

使用事例

音声処理

音声テキスト化

音声内容をテキスト形式に変換

単語誤り率12.81%

音素分析

音声中の音素成分を識別

教育技術

発音評価

言語学習における発音精度の評価に使用

🚀 wav2vec2-Phoneme

このモデルは、未知のデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは、以下の結果を達成しています。

🚀 クイックスタート

このモデルは、未知のデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたものです。評価セットでの結果は以下の通りです。

損失: 0.2842
単語誤り率 (Wer): 0.1281

🔧 技術詳細

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0001
トレーニングバッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 2
総トレーニングバッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 30
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.1769	0.2954	100	2.1463	0.9564
2.1285	0.5908	200	2.0959	0.9575
1.8989	0.8863	300	1.5997	0.9022
1.1123	1.1817	400	0.6782	0.4093
0.618	1.4771	500	0.3548	0.1544
0.4993	1.7725	600	0.3039	0.1331
0.4425	2.0679	700	0.2688	0.1169
0.363	2.3634	800	0.2419	0.1108
0.3507	2.6588	900	0.2220	0.1039
0.3282	2.9542	1000	0.1999	0.1001
0.2887	3.2496	1100	0.2044	0.0974
0.3104	3.5451	1200	0.1950	0.0994
0.2976	3.8405	1300	0.2005	0.0969
0.2617	4.1359	1400	0.1907	0.0962
0.2783	4.4313	1500	0.1886	0.0936
0.2533	4.7267	1600	0.1845	0.0938
0.2501	5.0222	1700	0.1759	0.0926
0.2261	5.3176	1800	0.1789	0.0896
0.2112	5.6130	1900	0.1824	0.0891
0.2162	5.9084	2000	0.1715	0.0886
0.2098	6.2038	2100	0.1761	0.0902
0.2133	6.4993	2200	0.1747	0.0896
0.2174	6.7947	2300	0.1753	0.0892
0.2033	7.0901	2400	0.1729	0.0886
0.2167	7.3855	2500	0.1749	0.0889
0.2001	7.6809	2600	0.1650	0.0874
0.1874	7.9764	2700	0.1656	0.0872
0.1846	8.2718	2800	0.1674	0.0873
0.1927	8.5672	2900	0.1595	0.0863
0.1672	8.8626	3000	0.1552	0.0849
0.1741	9.1581	3100	0.1659	0.0868
0.1753	9.4535	3200	0.1615	0.0862
0.1825	9.7489	3300	0.1623	0.0862
0.166	10.0443	3400	0.1584	0.0865
0.1762	10.3397	3500	0.1573	0.0850
0.1744	10.6352	3600	0.1537	0.0863
0.1786	10.9306	3700	0.1522	0.0840
0.1731	11.2260	3800	0.1645	0.0851
0.1929	11.5214	3900	0.1785	0.0851
0.2047	11.8168	4000	0.1844	0.0860
0.255	12.1123	4100	0.2305	0.0911
0.2771	12.4077	4200	0.2311	0.0886
0.2742	12.7031	4300	0.2605	0.0901
0.3879	12.9985	4400	0.2886	0.0965
0.3655	13.2939	4500	0.2897	0.0933
0.3693	13.5894	4600	0.2936	0.0960
0.3999	13.8848	4700	0.2905	0.1059
0.4286	14.1802	4800	0.3424	0.1025
0.574	14.4756	4900	0.3891	0.1135
0.5753	14.7710	5000	0.3912	0.1276
0.5225	15.0665	5100	0.4248	0.1151
0.4785	15.3619	5200	0.3332	0.1287
0.5733	15.6573	5300	0.3999	0.1261
0.5471	15.9527	5400	0.4144	0.1293
0.5527	16.2482	5500	0.3580	0.1160
0.6322	16.5436	5600	0.5158	0.1794
0.6867	16.8390	5700	0.4731	0.1411
0.606	17.1344	5800	0.3812	0.1305
0.5376	17.4298	5900	0.3505	0.1206
0.5035	17.7253	6000	0.3251	0.1199
0.469	18.0207	6100	0.3092	0.1172
0.4544	18.3161	6200	0.3030	0.1185
0.4288	18.6115	6300	0.2915	0.1183
0.4457	18.9069	6400	0.2834	0.1203
0.408	19.2024	6500	0.2765	0.1212
0.4182	19.4978	6600	0.2741	0.1205
0.4117	19.7932	6700	0.2705	0.1209
0.4131	20.0886	6800	0.2725	0.1230
0.4034	20.3840	6900	0.2713	0.1218
0.4048	20.6795	7000	0.2707	0.1226
0.4199	20.9749	7100	0.2695	0.1221
0.4286	21.2703	7200	0.2709	0.1239
0.3968	21.5657	7300	0.2699	0.1230
0.4071	21.8612	7400	0.2705	0.1254
0.4178	22.1566	7500	0.2701	0.1252
0.396	22.4520	7600	0.2702	0.1252
0.4255	22.7474	7700	0.2701	0.1249
0.4239	23.0428	7800	0.2716	0.1254
0.4153	23.3383	7900	0.2729	0.1264
0.4265	23.6337	8000	0.2726	0.1264
0.4221	23.9291	8100	0.2737	0.1266
0.4268	24.2245	8200	0.2751	0.1269
0.4207	24.5199	8300	0.2761	0.1273
0.3872	24.8154	8400	0.2764	0.1273
0.4004	25.1108	8500	0.2786	0.1276
0.4096	25.4062	8600	0.2798	0.1276
0.4542	25.7016	8700	0.2803	0.1274
0.4361	25.9970	8800	0.2818	0.1276
0.4454	26.2925	8900	0.2826	0.1277
0.4204	26.5879	9000	0.2842	0.1281
0.4423	26.8833	9100	0.2841	0.1280
0.4333	27.1787	9200	0.2845	0.1282
0.4036	27.4742	9300	0.2844	0.1281
0.4203	27.7696	9400	0.2844	0.1281
0.4321	28.0650	9500	0.2842	0.1281
0.4251	28.3604	9600	0.2842	0.1281
0.4122	28.6558	9700	0.2841	0.1281
0.424	28.9513	9800	0.2841	0.1280
0.4404	29.2467	9900	0.2842	0.1281
0.4174	29.5421	10000	0.2842	0.1281
0.4432	29.8375	10100	0.2842	0.1281