オープンソースのwav2vec2-speechdatモデル - 超実用的なスウェーデン語自動音声認識ツール

ホーム

Wav2vec2 Speechdat

birgermoellによって開発

このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、COMMON_VOICE - SV-SEデータセットで微調整されたスウェーデン語自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #スウェーデン語音声認識 #高精度WER #多方言適応

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

これは、wav2vec2アーキテクチャに基づき、Common Voiceのスウェーデン語データセットで微調整された、スウェーデン語向けの自動音声認識（ASR）モデルです。

モデル特徴

スウェーデン語最適化

スウェーデン語に特化して微調整され、スウェーデン語音声認識タスクで良好な性能を発揮します。

wav2vec2アーキテクチャに基づく

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用し、強力な音声特徴抽出能力を持ちます。

Common Voiceデータセットでの学習

高品質のCommon Voiceスウェーデン語データセットを使用して学習されています。

モデル能力

スウェーデン語音声認識

音声をテキストに変換

使用事例

音声文字起こし

スウェーデン語音声文字起こし

スウェーデン語の音声内容をテキストに変換します。

評価セットで0.2927の単語誤り率（WER）を達成しました。

音声アシスタント

スウェーデン語音声コマンド認識

スウェーデン語音声アシスタントシステムのコマンド認識に使用されます。

🚀 wav2vec2-speechdat

このモデルは、COMMON_VOICE - SV-SEデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4578
単語誤り率 (Wer): 0.2927

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。COMMON_VOICE - SV-SEデータセットで訓練されており、特定の評価指標で良好な性能を示しています。

✨ 主な機能

自動音声認識タスクに適用可能。
COMMON_VOICE - SV-SEデータセットでファインチューニングされている。
評価セットで低い損失と単語誤り率を達成。

🔧 技術詳細

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.0003
訓練バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総訓練バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 15.0
混合精度訓練 (mixed_precision_training): Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
No log	0.01	100	3.6252	1.0
No log	0.02	200	3.1906	1.0
No log	0.03	300	3.1090	1.0
No log	0.04	400	1.8796	0.9955
6.2575	0.05	500	1.3515	0.9058
6.2575	0.06	600	1.1209	0.8328
6.2575	0.07	700	1.1404	0.8309
6.2575	0.09	800	1.0599	0.8021
6.2575	0.1	900	0.9901	0.8335
0.7737	0.11	1000	0.8846	0.7400
0.7737	0.12	1100	0.9971	0.7820
0.7737	0.13	1200	0.8665	0.7123
0.7737	0.14	1300	0.8490	0.7366
0.7737	0.15	1400	0.8250	0.6765
0.6183	0.16	1500	0.8291	0.6965
0.6183	0.17	1600	0.7946	0.6823
0.6183	0.18	1700	0.8239	0.6894
0.6183	0.19	1800	0.8282	0.6796
0.6183	0.2	1900	0.7645	0.6518
0.561	0.21	2000	0.7530	0.6367
0.561	0.22	2100	0.7296	0.6177
0.561	0.24	2200	0.7527	0.6498
0.561	0.25	2300	0.7210	0.6316
0.561	0.26	2400	0.7938	0.6757
0.5402	0.27	2500	0.7485	0.6372
0.5402	0.28	2600	0.7146	0.6133
0.5402	0.29	2700	0.7308	0.6626
0.5402	0.3	2800	0.7078	0.5949
0.5402	0.31	2900	0.7679	0.6373
0.5303	0.32	3000	0.7263	0.6502
0.5303	0.33	3100	0.6613	0.5846
0.5303	0.34	3200	0.6784	0.5783
0.5303	0.35	3300	0.6908	0.5833
0.5303	0.36	3400	0.6595	0.5826
0.503	0.37	3500	0.6717	0.5938
0.503	0.39	3600	0.6938	0.5791
0.503	0.4	3700	0.6677	0.6052
0.503	0.41	3800	0.6544	0.5554
0.503	0.42	3900	0.6514	0.5728
0.4959	0.43	4000	0.6847	0.6188
0.4959	0.44	4100	0.6626	0.5869
0.4959	0.45	4200	0.6670	0.5700
0.4959	0.46	4300	0.6596	0.5846
0.4959	0.47	4400	0.6523	0.5468
0.4824	0.48	4500	0.6392	0.5688
0.4824	0.49	4600	0.6561	0.5687
0.4824	0.5	4700	0.6697	0.5817
0.4824	0.51	4800	0.6348	0.5608
0.4824	0.52	4900	0.6561	0.5600
0.4714	0.54	5000	0.6522	0.6181
0.4714	0.55	5100	0.6858	0.5921
0.4714	0.56	5200	0.6706	0.5497
0.4714	0.57	5300	0.7123	0.5768
0.4714	0.58	5400	0.6599	0.6100
0.471	0.59	5500	0.6421	0.5626
0.471	0.6	5600	0.6395	0.5753
0.471	0.61	5700	0.6788	0.5481
0.471	0.62	5800	0.6386	0.5516
0.471	0.63	5900	0.6694	0.5913
0.4707	0.64	6000	0.6251	0.5699
0.4707	0.65	6100	0.6243	0.5567
0.4707	0.66	6200	0.6645	0.5629
0.4707	0.67	6300	0.6296	0.5895
0.4707	0.69	6400	0.6078	0.5183
0.4632	0.7	6500	0.6270	0.5619
0.4632	0.71	6600	0.6050	0.5336
0.4632	0.72	6700	0.6185	0.5449
0.4632	0.73	6800	0.6281	0.5645
0.4632	0.74	6900	0.5877	0.5084
0.4514	0.75	7000	0.6199	0.5403
0.4514	0.76	7100	0.6293	0.5275
0.4514	0.77	7200	0.6290	0.5447
0.4514	0.78	7300	0.6130	0.5373
0.4514	0.79	7400	0.6138	0.5285
0.4457	0.8	7500	0.6040	0.5259
0.4457	0.81	7600	0.6220	0.5686
0.4457	0.82	7700	0.5915	0.5164
0.4457	0.84	7800	0.6270	0.5289
0.4457	0.85	7900	0.6224	0.5515
0.4458	0.86	8000	0.6161	0.5323
0.4458	0.87	8100	0.5827	0.5122
0.4458	0.88	8200	0.6067	0.5202
0.4458	0.89	8300	0.6087	0.5192
0.4458	0.9	8400	0.6859	0.5796
0.4409	0.91	8500	0.6180	0.5131
0.4409	0.92	8600	0.5945	0.4948
0.4409	0.93	8700	0.5967	0.5532
0.4409	0.94	8800	0.5770	0.4961
0.4409	0.95	8900	0.5809	0.5203
0.4305	0.96	9000	0.5805	0.5039
0.4305	0.97	9100	0.5873	0.5188
0.4305	0.98	9200	0.6277	0.5516
0.4305	1.0	9300	0.5727	0.5052
0.4305	1.01	9400	0.5858	0.5123
0.4264	1.02	9500	0.5692	0.4968
0.4264	1.03	9600	0.5954	0.5117
0.4264	1.04	9700	0.5904	0.5076
0.4264	1.05	9800	0.6046	0.5101
0.4264	1.06	9900	0.5616	0.4926
0.4176	1.07	10000	0.5971	0.5368
0.4176	1.08	10100	0.5706	0.4940
0.4176	1.09	10200	0.5612	0.5032
0.4176	1.1	10300	0.5672	0.4944
0.4176	1.11	10400	0.5915	0.5218
0.4033	1.12	10500	0.5706	0.5051
0.4033	1.13	10600	0.5661	0.4934
0.4033	1.15	10700	0.5724	0.4903
0.4033	1.16	10800	0.5792	0.4940
0.4033	1.17	10900	0.5744	0.4911
0.392	1.18	11000	0.5767	0.5162
0.392	1.19	11100	0.5588	0.4835
0.392	1.2	11200	0.5609	0.4922
0.392	1.21	11300	0.5890	0.4914
0.392	1.22	11400	0.5525	0.4897
0.387	1.23	11500	0.5704	0.5051
0.387	1.24	11600	0.5539	0.5014
0.387	1.25	11700	0.5473	0.4882
0.387	1.26	11800	0.5662	0.5004
0.387	1.27	11900	0.5785	0.5220
0.3956	1.28	12000	0.5990	0.5114
0.3956	1.3	12100	0.5497	0.4895
0.3956	1.31	12200	0.5538	0.4895
0.3956	1.32	12300	0.5652	0.4913
0.3956	1.33	12400	0.5682	0.5128
0.4043	1.34	12500	0.5830	0.4999
0.4043	1.35	12600	0.5686	0.4865
0.4043	1.36	12700	0.5688	0.4937
0.4043	1.37	12800	0.5753	0.5034
0.4043	1.38	12900	0.5898	0.4865
0.3997	1.39	13000	0.5723	0.4963
0.3997	1.4	13100	0.5767	0.4986
0.3997	1.41	13200	0.5960	0.5084
0.3997	1.42	13300	0.5859	0.5096
0.3997	1.43	13400	0.5491	0.4784
0.3997	1.45	13500	0.5636	0.5049
0.3997	1.46	13600	0.5667	0.4708
0.3997	1.47	13700	0.5757	0.4862
0.3997	1.48	13800	0.5444	0.4816
0.3997	1.49	13900	0.5557	0.4792
0.3954	1.5	14000	0.5437	0.4810
0.3954	1.51	14100	0.5489	0.4674
0.3954	1.52	14200	0.5415	0.4674
0.3954	1.53	14300	0.5481	0.4902
0.3954	1.54	14400	0.5474	0.4763
0.3814	1.55	14500	0.5588	0.4731
0.3814	1.56	14600	0.5746	0.4820
0.3814	1.57	14700	0.5676	0.4884
0.3814	1.58	14800	0.5495	0.4711
0.3814	1.6	14900	0.5565	0.4782
0.3877	1.61	15000	0.5671	0.5135
0.3877	1.62	15100	0.5512	0.4868
0.3877	1.63	15200	0.5683	0.4650
0.3877	1.64	15300	0.5427	0.4717
0.3877	1.65	15400	0.5519	0.4651
0.387	1.66	15500	0.5327	0.4456
0.387	1.67	15600	0.5371	0.4673
0.387	1.68	15700	0.5337	0.4705
0.387	1.69	15800	0.5606	0.4992
0.387	1.7	15900	0.5254	0.4613
0.3877	1.71	16000	0.5619	0.4882
0.3877	1.72	16100	0.5212	0.4560
0.3877	1.73	16200	0.5369	0.4696
0.3877	1.75	16300	0.5392	0.4677
0.3877	1.76	16400	0.5353	0.4768
0.3739	1.77	16500	0.5435	0.4777
0.3739	1.78	16600	0.5343	0.4884
0.3739	1.79	16700	0.5309	0.4942
0.3739	1.8	16800	0.5373	0.4727
0.3739	1.81	16900	0.5550	0.4686
0.3884	1.82	17000	0.5486	0.4826
0.3884	1.83	17100	0.5508	0.4862
0.3884	1.84	17200	0.5423	0.4855
0.3884	1.85	17300	0.5478	0.4730
0.3884	1.86	17400	0.5438	0.4938
0.3842	1.87	17500	0.5571	0.4818
0.3842	1.88	17600	0.5402	0.4753
0.3842	1.9	17700	0.5679	0.4827
0.3842	1.91	17800	0.5385	0.4642
0.3842	1.92	17900	0.5519	0.4942
0.3953	1.93	18000	0.5559	0.4745
0.3953	1.94	18100	0.5657	0.4963
0.3953	1.95	18200	0.5296	0.4642
0.3953	1.96	18300	0.5529	0.4907
0.3953	1.97	18400	0.5380	0.4536
0.3745	1.98	18500	0.5276	0.4678
0.3745	1.99	18600	0.5544	0.4854
0.3745	2.0	18700	0.5195	0.4535
0.3745	2.01	18800	0.5165	0.4635
0.3745	2.02	18900	0.5062	0.4431
0.3538	2.03	19000	0.5255	0.4509
0.3538	2.04	19100	0.5125	0.4512
0.3538	2.06	19200	0.5105	0.4504
0.3538	2.07	19300	0.5000	0.4490
0.3538	2.08	19400	0.5150	0.4520
0.356	2.09	19500	0.5053	0.4383
0.356	2.1	19600	0.5085	0.4417
0.356	2.11	19700	0.5229	0.4490
0.356	2.12	19800	0.5326	0.4492
0.356	2.13	19900	0.5139	0.4491
0.3474	2.14	20000	0.5134	0.4384
0.3474	2.15	20100	0.5498	0.4606
0.3474	2.16	20200	0.5324	0.4540
0.3474	2.17	20300	0.5338	0.4548
0.3474	2.18	20400	0.5076	0.4425
0.345	2.19	20500	0.5253	0.4550
0.345	2.21	20600	0.5125	0.4618
0.345	2.22	20700	0.5171	0.4487
0.345	2.23	20800	0.5232	0.4464
0.345	2.24	20900	0.5298	0.4588
0.341	2.25	21000	0.5342	0.4576
0.341	2.26	21100	0.5515	0.4678
0.341	2.27	21200	0.5041	0.4495
0.341	2.28	21300	0.5169	0.4473
0.341	2.29	21400	0.5227	0.4494
0.354	2.3	21500	0.5214	0.4458
0.354	2.31	21600	0.5303	0.4587
0.354	2.32	21700	0.5237	0.4597
0.354	2.33	21800	0.5067	0.4460
0.354	2.34	21900	0.5117	0.4560
0.3333	2.36	22000	0.5104	0.4359
0.3333	2.37	22100	0.5326	0.4679
0.3333	2.38	22200	0.5098	0.4510
0.3333	2.39	22300	0.5044	0.4445
0.3333	2.4	22400	0.5219	0.4489
0.3514	2.41	22500	0.4987	0.4433
0.3514	2.42	22600	0.5009	0.4338
0.3514	2.43	22700	0.5252	0.4444
0.3514	2.44	22800	0.4861	0.4269
0.3514	2.45	22900	0.5157	0.4421
0.3444	2.46	23000	0.5277	0.4426
0.3444	2.47	23100	0.5213	0.4378
0.3444	2.48	23200	0.5172	0.4482
0.3444	2.49	23300	0.5142	0.4376
0.3444	2.51	23400	0.5044	0.4231
0.3536	2.52	23500	0.5268	0.4496
0.3536	2.53	23600	0.5176	0.4326
0.3536	2.54	23700	0.5032	0.4296
0.3536	2.55	23800	0.5211	0.4460
0.3536	2.56	23900	0.5093	0.4379
0.337	2.57	24000	0.4990	0.4311
0.337	2.58	24100	0.4962	0.4329
0.337	2.59	24200	0.5033	0.4289
0.337	2.6	24300	0.5260	0.4534
0.337	2.61	24400	0.5309	0.4441
0.3393	2.62	24500	0.5132	0.4346
0.3393	2.63	24600	0.5189	0.4233
0.3393	2.64	24700	0.5074	0.4326
0.3393	2.66	24800	0.5111	0.4254
0.3393	2.67	24900	0.4933	0.4254
0.3334	2.68	25000	0.5046	0.4407
0.3334	2.69	25100	0.5010	0.4404
0.3334	2.7	25200	0.5045	0.4236
0.3334	2.71	25300	0.4938	0.4305
0.3334	2.72	25400	0.5021	0.4383
0.3366	2.73	25500	0.4953	0.4202
0.3366	2.74	25600	0.4985	0.4338
0.3366	2.75	25700	0.4765	0.4161
0.3366	2.76	25800	0.4873	0.4292
0.3366	2.77	25900	0.4998	0.4189
0.3359	2.78	26000	0.4991	0.4248
0.3359	2.79	26100	0.5012	0.4307
0.3359	2.81	26200	0.5081	0.4151
0.3359	2.82	26300	0.4997	0.4305
0.3359	2.83	26400	0.4969	0.4302
0.3396	2.84	26500	0.4784	0.4271
0.3396	2.85	26600	0.4804	0.4149
0.3396	2.86	26700	0.4900	0.4192
0.3396	2.87	26800	0.5044	0.4325
0.3396	2.88	26900	0.4935	0.4376
0.3356	2.89	27000	0.5007	0.4269
0.3356	2.9	27100	0.4887	0.4178
0.3356	2.91	27200	0.4770	0.4170
0.3356	2.92	27300	0.4847	0.4167
0.3356	2.93	27400	0.4861	0.4139
0.3395	2.94	27500	0.4975	0.4291
0.3395	2.95	27600	0.5056	0.4471
0.3395	2.97	27700	0.5111	0.4375
0.3395	2.98	27800	0.5327	0.4577
0.3395	2.99	27900	0.5067	0.4393
0.3332	3.0	28000	0.4898	0.4188
0.3332	3.01	28100	0.4790	0.4093
0.3332	3.02	28200	0.4828	0.4202
0.3332	3.03	28300	0.4836	0.4146
0.3332	3.04	28400	0.4901	0.4242
0.2984	3.05	28500	0.4772	0.4118
0.2984	3.06	28600	0.5055	0.4213
0.2984	3.07	28700	0.4911	0.4100
0.2984	3.08	28800	0.4737	0.4087
0.2984	3.09	28900	0.4930	0.4216
0.3056	3.1	29000	0.4736	0.4109
0.3056	3.12	29100	0.4863	0.4058
0.3056	3.13	29200	0.4784	0.4184
0.3056	3.14	29300	0.4923	0.4240
0.3056	3.15	29400	0.4846	0.4226
0.2995	3.16	29500	0.4829	0.4086
0.2995	3.17	29600	0.4934	0.4240
0.2995	3.18	29700	0.4893	0.4152
0.2995	3.19	29800	0.4730	0.4227
0.2995	3.2	29900	0.5027	0.4330
0.2926	3.21	30000	0.4903	0.4112