20220413 - 210552 オープンソース音声認識モデル - 無料でデプロイして音声内容を高精度で認識

ホーム

20220413 210552

lilitketによって開発

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルです

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声認識 #多言語対応 #低リソース最適化

ダウンロード数 18

リリース時間 : 4/13/2022

モデル概要

これはwav2vec2-xls-r-300mアーキテクチャに基づき、common_voiceデータセットでトレーニングされた音声認識用のファインチューニングモデルです。

モデル特徴

効率的なファインチューニング

強力なwav2vec2-xls-r-300mベースモデルを基にファインチューニング

低い単語誤り率

評価データセットで1.0006の単語誤り率(WER)を達成

最適化されたトレーニング

線形学習率スケジューリングと2000ステップのウォームアップトレーニングを採用

モデル能力

音声からテキストへ

自動音声認識

使用事例

音声文字起こし

音声から文字へ

音声内容を文字記録に変換

単語誤り率1.0006

🚀 20220413-210552

このモデルは、common_voiceデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 3.0348
単語誤り率 (Wer): 1.0006

🚀 クイックスタート

このモデルは、音声関連のタスクに利用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

🔧 技術詳細

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

パラメータ	値
学習率 (learning_rate)	6e-06
学習バッチサイズ (train_batch_size)	1
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	2000
エポック数 (num_epochs)	1200
混合精度学習 (mixed_precision_training)	ネイティブAMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
17.1111	1.5	200	16.6792	1.0
16.0992	3.01	400	15.3947	1.0
10.7668	4.51	600	10.3625	1.0
6.2652	6.02	800	7.6849	1.0
5.1417	7.52	1000	6.0307	1.0
4.6159	9.02	1200	5.0891	1.0
4.2444	10.53	1400	4.4120	1.0
3.8935	12.03	1600	3.9570	1.0
3.6292	13.53	1800	3.6405	1.0
3.4535	15.04	2000	3.4523	1.0
3.3175	16.54	2200	3.3589	1.0
3.2266	18.05	2400	3.2966	1.0
3.1825	19.55	2600	3.2658	1.0
3.1604	21.05	2800	3.2534	1.0
3.1438	22.56	3000	3.2437	1.0
3.1176	24.06	3200	3.2169	1.0
3.1088	25.56	3400	3.2102	1.0
3.0955	27.07	3600	3.1983	1.0
3.0763	28.57	3800	3.2092	1.0
3.0599	30.08	4000	3.2092	1.0
3.0385	31.58	4200	3.2154	1.0
2.9996	33.08	4400	3.2120	1.0
2.9207	34.59	4600	3.2146	1.0
2.8071	36.09	4800	3.2093	1.0
2.6412	37.59	5000	3.2282	1.0
2.4594	39.1	5200	3.2442	1.0
2.2708	40.6	5400	3.2944	1.0
2.1279	42.11	5600	3.3260	1.0
1.9985	43.61	5800	3.3586	1.0
1.8979	45.11	6000	3.3945	1.0
1.7838	46.62	6200	3.4761	1.0
1.6774	48.12	6400	3.4886	1.0
1.5958	49.62	6600	3.6208	1.0
1.4957	51.13	6800	3.6501	1.0
1.4202	52.63	7000	3.6492	1.0
1.3377	54.14	7200	3.7392	1.0
1.2872	55.64	7400	3.8624	1.0
1.1992	57.14	7600	3.8511	1.0
1.1238	58.65	7800	3.9662	1.0
1.0775	60.15	8000	3.9267	1.0
1.011	61.65	8200	4.0933	1.0
0.962	63.16	8400	4.0941	1.0
0.9041	64.66	8600	4.1163	1.0
0.8552	66.17	8800	4.1937	1.0
0.8054	67.67	9000	4.2277	1.0
0.7457	69.17	9200	4.3899	1.0
0.7292	70.68	9400	4.3621	1.0
0.6635	72.18	9600	4.4706	1.0
0.6333	73.68	9800	4.4571	1.0
0.6109	75.19	10000	4.4594	1.0
0.5611	76.69	10200	4.5672	1.0
0.5286	78.2	10400	4.4957	1.0
0.4894	79.7	10600	4.5278	1.0
0.4831	81.2	10800	4.4604	1.0
0.4575	82.71	11000	4.7439	1.0
0.4418	84.21	11200	4.6511	1.0
0.4085	85.71	11400	4.5008	1.0
0.4011	87.22	11600	4.7690	1.0
0.3791	88.72	11800	4.8675	1.0
0.3487	90.23	12000	5.0327	1.0
0.3661	91.73	12200	4.8084	1.0
0.3306	93.23	12400	4.9095	1.0
0.3449	94.74	12600	4.8223	1.0
0.2949	96.24	12800	4.8245	1.0
0.2987	97.74	13000	5.0803	1.0
0.2896	99.25	13200	5.2074	1.0
0.2731	100.75	13400	5.1951	1.0
0.2749	102.26	13600	5.2071	1.0
0.2554	103.76	13800	5.0861	1.0
0.2436	105.26	14000	5.0851	1.0
0.2494	106.77	14200	4.8623	1.0
0.23	108.27	14400	5.0466	1.0
0.2345	109.77	14600	5.2474	1.0
0.2233	111.28	14800	4.9394	1.0
0.2231	112.78	15000	4.9572	1.0
0.213	114.29	15200	5.3215	1.0
0.2002	115.79	15400	5.3042	1.0
0.2023	117.29	15600	5.0279	1.0
0.2074	118.8	15800	4.9727	1.0
0.2071	120.3	16000	4.6775	1.0
0.1915	121.8	16200	4.8386	1.0
0.1899	123.31	16400	4.7898	1.0
0.1821	124.81	16600	5.3147	1.0
0.1908	126.32	16800	5.6218	1.0
0.1712	127.82	17000	4.6083	1.0
0.1705	129.32	17200	5.2468	1.0
0.1664	130.83	17400	5.0412	1.0
0.167	132.33	17600	5.0116	1.0
0.162	133.83	17800	5.2799	1.0
0.1561	135.34	18000	5.2485	1.0
0.1501	136.84	18200	5.1109	1.0
0.14	138.35	18400	5.2310	1.0
0.1576	139.85	18600	5.1631	1.0
0.1433	141.35	18800	5.3497	1.0
0.148	142.86	19000	4.8892	1.0
0.1525	144.36	19200	4.8522	1.0
0.1517	145.86	19400	4.7830	1.0
0.139	147.37	19600	5.2041	1.0
0.1392	148.87	19800	4.7968	1.0
0.1351	150.38	20000	5.0326	1.0
0.1355	151.88	20200	5.0474	1.0
0.138	153.38	20400	4.7491	1.0006
0.1332	154.89	20600	5.3905	1.0
0.1252	156.39	20800	4.9815	1.0
0.1179	157.89	21000	5.3281	1.0
0.1228	159.4	21200	5.1108	1.0006
0.1311	160.9	21400	4.8016	1.0
0.1278	162.41	21600	4.8306	1.0
0.1209	163.91	21800	4.6413	1.0
0.1199	165.41	22000	4.6375	1.0
0.1172	166.92	22200	4.9108	1.0
0.1247	168.42	22400	4.6139	1.0006
0.1121	169.92	22600	4.4765	1.0006
0.125	171.43	22800	4.6819	1.0006
0.1259	172.93	23000	4.9577	1.0
0.1044	174.44	23200	5.2993	1.0006
0.1107	175.94	23400	4.3140	1.0
0.1142	177.44	23600	4.5850	1.0
0.0971	178.95	23800	4.8177	1.0006
0.1186	180.45	24000	4.9972	1.0
0.1164	181.95	24200	4.5840	1.0
0.1014	183.46	24400	4.9117	0.9994
0.1087	184.96	24600	4.5646	1.0006
0.1075	186.47	24800	4.6995	1.0
0.1111	187.97	25000	4.7877	1.0
0.1079	189.47	25200	4.8420	1.0
0.1053	190.98	25400	5.1083	1.0
0.1048	192.48	25600	4.2876	1.0
0.0974	193.98	25800	4.6699	1.0006
0.0983	195.49	26000	4.6522	1.0
0.0935	196.99	26200	4.9879	1.0
0.0948	198.5	26400	4.4146	1.0
0.0867	200.0	26600	5.1909	1.0
0.0932	201.5	26800	5.2019	1.0
0.0951	203.01	27000	3.6893	1.0
0.085	204.51	27200	4.3071	1.0006
0.0912	206.02	27400	4.4651	1.0
0.092	207.52	27600	4.4218	1.0
0.0936	209.02	27800	5.1391	1.0
0.0989	210.53	28000	4.8787	1.0006
0.0898	212.03	28200	4.1418	1.0013
0.0943	213.53	28400	4.1857	1.0
0.0834	215.04	28600	4.3519	1.0
0.0851	216.54	28800	4.3612	1.0006
0.0932	218.05	29000	4.2200	1.0006
0.0848	219.55	29200	4.2054	1.0
0.0873	221.05	29400	4.4815	1.0
0.0949	222.56	29600	3.9426	1.0
0.0856	224.06	29800	3.7650	1.0
0.0768	225.56	30000	3.9774	1.0
0.0823	227.07	30200	4.3728	1.0
0.0913	228.57	30400	3.7813	1.0
0.0951	230.08	30600	4.1581	1.0
0.0843	231.58	30800	4.6891	1.0
0.0879	233.08	31000	4.2984	1.0
0.0807	234.59	31200	3.9511	1.0
0.0765	236.09	31400	3.8094	1.0
0.0861	237.59	31600	4.3118	1.0
0.0596	239.1	31800	4.0774	1.0006
0.0752	240.6	32000	3.6005	1.0
0.0729	242.11	32200	4.8616	1.0
0.0783	243.61	32400	3.9858	1.0
0.0759	245.11	32600	4.1231	1.0
0.08	246.62	32800	4.5182	1.0
0.0782	248.12	33000	3.7721	1.0
0.0914	249.62	33200	3.5902	1.0
0.0668	251.13	33400	3.9673	1.0
0.0798	252.63	33600	3.8693	1.0
0.0814	254.14	33800	3.9804	1.0006
0.0775	255.64	34000	3.9483	1.0
0.0721	257.14	34200	4.6892	1.0
0.0722	258.65	34400	4.1972	1.0
0.0755	260.15	34600	4.4523	1.0
0.0683	261.65	34800	4.1090	1.0
0.0698	263.16	35000	4.0634	1.0
0.0712	264.66	35200	4.0469	1.0006
0.0754	266.17	35400	4.0113	1.0006
0.0709	267.67	35600	4.0592	1.0
0.0637	269.17	35800	3.7540	1.0
0.0688	270.68	36000	3.9645	1.0
0.0592	272.18	36200	3.7443	1.0
0.0585	273.68	36400	3.8287	1.0
0.0734	275.19	36600	3.6780	1.0
0.058	276.69	36800	4.0194	1.0
0.0707	278.2	37000	3.6663	1.0006
0.0728	279.7	37200	3.8640	1.0
0.064	281.2	37400	4.5473	1.0
0.0583	282.71	37600	4.1813	1.0
0.0634	284.21	37800	3.8821	1.0
0.0565	285.71	38000	3.9566	1.0006
0.0735	287.22	38200	4.5317	1.0
0.0797	288.72	38400	3.8040	1.0
0.0601	290.23	38600	4.0956	1.0
0.0599	291.73	38800	4.0592	1.0
0.0517	293.23	39000	3.5204	1.0006
0.0622	294.74	39200	4.1739	1.0
0.0705	296.24	39400	4.0262	1.0
0.0589	297.74	39600	4.2476	1.0
0.0606	299.25	39800	3.7931	1.0
0.0603	300.75	40000	4.0540	0.9994
0.0568	302.26	40200	3.5900	1.0
0.0583	303.76	40400	3.8095	1.0
0.0513	305.26	40600	3.8949	1.0
0.0637	306.77	40800	3.8085	1.0
0.0659	308.27	41000	4.2311	1.0
0.068	309.77	41200	3.4876	1.0006
0.0616	311.28	41400	3.7634	1.0
0.0515	312.78	41600	3.8762	1.0
0.0584	314.29	41800	4.2070	1.0
0.054	315.79	42000	3.9088	1.0
0.0571	317.29	42200	3.9679	1.0006
0.0497	318.8	42400	3.8443	1.0
0.0507	320.3	42600	4.2397	1.0
0.0612	321.8	42800	4.2228	1.0
0.0467	323.31	43000	3.6684