20220412 - 203254オープンソース音声認識モデル - 自動音声認識タスクを無料でサポート

ホーム

20220412 203254

lilitketによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声認識 #低単語誤り率 #多言語サポート

ダウンロード数 18

リリース時間 : 4/12/2022

モデル概要

これはwav2vec2-xls-r-300mアーキテクチャに基づく音声認識モデルで、common_voiceデータセットでファインチューニングされており、音声をテキストに変換できます。

モデル特徴

効率的なファインチューニング

事前学習済みのwav2vec2-xls-r-300mモデルを基にファインチューニングし、大規模事前学習の利点を最大限に活用

低単語誤り率

評価データセットで1.0019の単語誤り率(WER)を達成し、優れた性能を発揮

混合精度トレーニング

ネイティブAMP混合精度トレーニング技術を採用し、トレーニング効率を向上

モデル能力

音声からテキストへの変換

自動音声認識

使用事例

音声書き起こし

会議議録の自動書き起こし

会議の録音を自動的に文字記録に変換

単語誤り率が1.0019と低い

音声アシスタント

音声アシスタントシステムの音声認識モジュールとして使用

🚀 20220412-203254

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mを微調整したバージョンです。評価セットでは以下の結果を達成しています。

損失: 5.0428
単語誤り率 (Wer): 1.0019

🚀 クイックスタート

このモデルは、音声関連のタスクに使用できます。具体的な使用方法については、詳細なドキュメントを参照してください。

📚 ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 6e-06
学習バッチサイズ (train_batch_size): 1
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 2000
エポック数 (num_epochs): 1200
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
16.9455	1.5	200	16.4676	1.2534
15.444	3.01	400	14.1207	1.0
9.5452	4.51	600	8.4030	1.0
6.2565	6.02	800	6.5233	1.0
5.2827	7.52	1000	5.6058	1.0
4.7652	9.02	1200	4.9765	1.0
4.3803	10.53	1400	4.4565	1.0
4.0005	12.03	1600	4.0224	1.0
3.7041	13.53	1800	3.6903	1.0
3.4991	15.04	2000	3.4642	1.0
3.34	16.54	2200	3.3425	1.0
3.2352	18.05	2400	3.2617	1.0
3.1867	19.55	2600	3.2358	1.0
3.161	21.05	2800	3.2289	1.0
3.145	22.56	3000	3.2023	1.0
3.1203	24.06	3200	3.1964	1.0
3.1109	25.56	3400	3.1844	1.0
3.0958	27.07	3600	3.1839	1.0
3.0732	28.57	3800	3.2058	1.0
3.0535	30.08	4000	3.1843	1.0
3.0243	31.58	4200	3.1992	1.0
2.9829	33.08	4400	3.2019	1.0
2.9219	34.59	4600	3.2346	1.0
2.8313	36.09	4800	3.2781	1.0
2.7186	37.59	5000	3.3056	1.0
2.5745	39.1	5200	3.3554	1.0
2.4028	40.6	5400	3.4331	1.0
2.2645	42.11	5600	3.4418	1.0
2.1303	43.61	5800	3.5584	1.0
2.0257	45.11	6000	3.5943	1.0
1.9223	46.62	6200	3.6767	1.0
1.8344	48.12	6400	3.7363	1.0
1.7574	49.62	6600	3.8921	1.0
1.67	51.13	6800	3.9054	1.0
1.6118	52.63	7000	4.0352	1.0
1.5372	54.14	7200	3.9742	1.0
1.4846	55.64	7400	4.1078	1.0
1.4093	57.14	7600	4.1705	1.0
1.3379	58.65	7800	4.2737	1.0
1.28	60.15	8000	4.3662	1.0
1.2268	61.65	8200	4.4278	1.0
1.1641	63.16	8400	4.4831	1.0
1.1058	64.66	8600	4.5354	1.0
1.0596	66.17	8800	4.5983	1.0
0.9953	67.67	9000	4.7143	1.0
0.9406	69.17	9200	4.8536	1.0
0.9022	70.68	9400	4.7732	1.0
0.8551	72.18	9600	4.8929	1.0
0.8103	73.68	9800	4.9513	1.0
0.7665	75.19	10000	4.9530	1.0
0.7215	76.69	10200	5.1471	1.0
0.6906	78.2	10400	5.2295	1.0
0.6354	79.7	10600	5.1287	1.0
0.6196	81.2	10800	5.2081	1.0
0.6026	82.71	11000	5.4323	1.0
0.5726	84.21	11200	5.3907	1.0
0.5348	85.71	11400	5.5669	1.0
0.5344	87.22	11600	5.5685	1.0
0.4849	88.72	11800	5.5814	1.0
0.4689	90.23	12000	5.6186	1.0
0.4646	91.73	12200	5.4834	1.0
0.4266	93.23	12400	5.6463	1.0
0.4424	94.74	12600	5.6562	1.0
0.3865	96.24	12800	5.7463	1.0
0.3914	97.74	13000	5.7014	1.0
0.3661	99.25	13200	5.7543	1.0
0.3582	100.75	13400	5.9172	1.0
0.3571	102.26	13600	5.5968	1.0
0.3343	103.76	13800	5.3691	1.0
0.3123	105.26	14000	5.8917	1.0
0.3089	106.77	14200	5.8054	1.0
0.3078	108.27	14400	5.9066	1.0
0.3076	109.77	14600	5.7379	1.0
0.2924	111.28	14800	5.7931	1.0
0.2925	112.78	15000	5.9529	1.0
0.2839	114.29	15200	5.9881	1.0
0.2599	115.79	15400	6.0081	1.0
0.2685	117.29	15600	6.1049	1.0
0.2557	118.8	15800	6.1154	1.0
0.2688	120.3	16000	5.9336	1.0
0.2422	121.8	16200	6.0492	1.0
0.2408	123.31	16400	6.3155	1.0
0.2423	124.81	16600	6.3437	1.0
0.2421	126.32	16800	6.0979	1.0
0.2212	127.82	17000	5.5551	1.0
0.2239	129.32	17200	5.9007	1.0
0.2101	130.83	17400	6.0142	1.0
0.2097	132.33	17600	5.8984	1.0
0.2064	133.83	17800	5.9705	1.0
0.1898	135.34	18000	5.9915	1.0
0.2053	136.84	18200	6.1079	1.0
0.1822	138.35	18400	6.1324	1.0
0.1867	139.85	18600	6.1122	1.0
0.1831	141.35	18800	6.1476	1.0
0.1935	142.86	19000	5.7248	1.0
0.1983	144.36	19200	6.1466	1.0
0.176	145.86	19400	5.9555	1.0
0.1778	147.37	19600	6.1434	1.0
0.1758	148.87	19800	6.2104	1.0
0.1799	150.38	20000	6.0933	1.0
0.1674	151.88	20200	6.0476	1.0
0.1777	153.38	20400	5.8937	1.0
0.1616	154.89	20600	6.4417	1.0
0.1498	156.39	20800	6.3136	1.0
0.1607	157.89	21000	5.9295	1.0
0.1445	159.4	21200	6.2741	1.0
0.1636	160.9	21400	6.1931	1.0
0.1488	162.41	21600	6.0089	1.0
0.1549	163.91	21800	5.6184	1.0
0.1532	165.41	22000	6.1250	1.0
0.1581	166.92	22200	6.2635	1.0
0.146	168.42	22400	6.0498	1.0
0.148	169.92	22600	6.3486	1.0
0.1489	171.43	22800	6.1659	1.0
0.1464	172.93	23000	6.2259	1.0
0.139	174.44	23200	6.2796	1.0
0.1357	175.94	23400	6.2119	1.0
0.1435	177.44	23600	6.5722	1.0
0.1172	178.95	23800	6.4221	1.0
0.1539	180.45	24000	6.3963	1.0
0.1389	181.95	24200	6.2367	1.0
0.1274	183.46	24400	6.3693	1.0
0.1295	184.96	24600	6.0819	1.0
0.1337	186.47	24800	6.1525	1.0
0.1303	187.97	25000	6.2520	1.0
0.141	189.47	25200	6.5302	1.0
0.1322	190.98	25400	6.3731	1.0
0.1313	192.48	25600	6.3570	1.0
0.1178	193.98	25800	6.1667	1.0
0.1277	195.49	26000	6.1352	1.0
0.1169	196.99	26200	6.3132	1.0
0.1199	198.5	26400	6.6116	1.0
0.1138	200.0	26600	6.4862	1.0
0.1129	201.5	26800	6.3442	1.0
0.1142	203.01	27000	6.5077	1.0
0.1169	204.51	27200	6.5710	1.0
0.111	206.02	27400	6.0623	1.0
0.1198	207.52	27600	6.4331	1.0
0.1108	209.02	27800	5.9192	1.0
0.1121	210.53	28000	6.0724	1.0
0.1171	212.03	28200	6.3363	1.0
0.1188	213.53	28400	6.3704	1.0
0.104	215.04	28600	6.5802	1.0
0.1125	216.54	28800	5.4428	1.0
0.1115	218.05	29000	6.4286	1.0
0.1109	219.55	29200	6.6998	1.0
0.1061	221.05	29400	6.3761	1.0
0.1161	222.56	29600	5.8712	1.0
0.1091	224.06	29800	6.1844	1.0
0.0947	225.56	30000	6.5670	1.0
0.1004	227.07	30200	6.2302	1.0
0.1099	228.57	30400	6.4218	1.0
0.1154	230.08	30600	6.4911	1.0
0.0999	231.58	30800	6.4390	1.0
0.1068	233.08	31000	6.2367	1.0
0.1015	234.59	31200	6.0790	1.0
0.0958	236.09	31400	5.9926	1.0
0.1183	237.59	31600	6.3400	1.0
0.0833	239.1	31800	6.4481	1.0
0.0874	240.6	32000	6.4535	1.0
0.0958	242.11	32200	6.0597	1.0
0.1075	243.61	32400	6.3403	1.0
0.0909	245.11	32600	6.1297	1.0
0.1093	246.62	32800	6.2232	1.0
0.0995	248.12	33000	6.7110	1.0
0.1061	249.62	33200	5.8551	1.0
0.0872	251.13	33400	6.0338	1.0
0.109	252.63	33600	6.2880	1.0
0.0976	254.14	33800	5.9304	1.0
0.0977	255.64	34000	6.4527	1.0
0.0895	257.14	34200	6.3178	1.0
0.0951	258.65	34400	6.3646	1.0
0.0942	260.15	34600	6.4405	1.0
0.0876	261.65	34800	5.8373	1.0
0.0877	263.16	35000	6.5296	1.0
0.0896	264.66	35200	6.6644	1.0
0.0938	266.17	35400	6.4721	1.0
0.0864	267.67	35600	7.0132	1.0
0.0897	269.17	35800	6.3767	1.0
0.094	270.68	36000	6.1663	1.0
0.0782	272.18	36200	5.7325	1.0
0.0878	273.68	36400	6.0681	1.0
0.0877	275.19	36600	6.2621	1.0
0.0827	276.69	36800	5.9692	1.0
0.0929	278.2	37000	6.0207	1.0
0.0899	279.7	37200	5.4185	1.0
0.0841	281.2	37400	5.9206	1.0
0.0924	282.71	37600	6.1820	1.0
0.0844	284.21	37800	6.1505	1.0
0.0824	285.71	38000	6.1564	1.0
0.0842	287.22	38200	5.9483	1.0
0.0863	288.72	38400	5.9305	1.0
0.0851	290.23	38600	5.8416	1.0
0.079	291.73	38800	5.7345	1.0
0.081	293.23	39000	5.7323	1.0
0.0873	294.74	39200	5.9131	1.0
0.0836	296.24	39400	6.1722	1.0
0.0774	297.74	39600	5.9523	1.0
0.0902	299.25	39800	5.8769	1.0
0.0766	300.75	40000	6.2435	1.0
0.0766	302.26	40200	5.7556	1.0
0.0723	303.76	40400	5.4647	1.0
0.0724	305.26	40600	6.0184	1.0
0.0834	306.77	40800	5.8434	1.0
0.0846	308.27	41000	6.0586	1.0
0.0878	309.77	41200	5.7270	1.0
0.0761	311.28	41400	5.7259	1.0
0.0639	312.78	41600	6.0848	1.0
0.0733	314.29	41800	6.0474	1.0
0.0734	315.79	42000	5.9387	1.0
0.0779	317.29	42200	5.6040	1.0
0.0713	318.8	42400	6.3136	1.0
0.0756	320.3	42600	5.8936	1.0
0.0758	321.8	42800	6.3659	1.0
0.0662	323.31	43000	5.8035	1.0