xlsr-wav2vec2-2開源語音識別模型 - 免費實現多語言語音轉文本

Xlsr Wav2vec2 2

由chrisvinsen開發

基於facebook/wav2vec2-large-xlsr-53微調的語音識別模型，支持多語言語音轉文本任務

下載量 20

發布時間 : 5/25/2022

模型概述

該模型是在facebook/wav2vec2-large-xlsr-53基礎上進行微調的版本，專注於語音識別任務，能夠將語音轉換為文本

多語言支持

基於XLSR-53架構，可能支持多種語言的語音識別

高效微調

在基礎模型上進行微調，提升了特定任務的性能

低詞錯誤率

在評估集上取得了0.4301的詞錯誤率(WER)

語音識別

語音轉文本

多語言處理

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

詞錯誤率0.4301

語音筆記

將語音備忘錄轉換為可搜索的文本

輔助技術

即時字幕生成

為視頻或直播內容生成即時字幕

本模型是 facebook/wav2vec2-large-xlsr-53 在 None 數據集上的微調版本。它在評估集上取得了以下結果：

更多信息待補充。

更多信息待補充。

更多信息待補充。

訓練期間使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
6.6058	1.38	400	3.1894	1.0
2.3145	2.76	800	0.7193	0.7976
0.6737	4.14	1200	0.5338	0.6056
0.4651	5.52	1600	0.5699	0.6007
0.3968	6.9	2000	0.4608	0.5221
0.3281	8.28	2400	0.5264	0.5209
0.2937	9.65	2800	0.5366	0.5096
0.2619	11.03	3200	0.4902	0.5021
0.2394	12.41	3600	0.4706	0.4908
0.2139	13.79	4000	0.5526	0.4871
0.2034	15.17	4400	0.5396	0.5108
0.1946	16.55	4800	0.4959	0.4866
0.1873	17.93	5200	0.4898	0.4877
0.1751	19.31	5600	0.5488	0.4932
0.1668	20.69	6000	0.5645	0.4986
0.1638	22.07	6400	0.5367	0.4946
0.1564	23.45	6800	0.5282	0.4898
0.1566	24.83	7200	0.5489	0.4841
0.1522	26.21	7600	0.5439	0.4821
0.1378	27.59	8000	0.5796	0.4866
0.1459	28.96	8400	0.5603	0.4875
0.1406	30.34	8800	0.6773	0.5005
0.1298	31.72	9200	0.5858	0.4827
0.1268	33.1	9600	0.6007	0.4790
0.1204	34.48	10000	0.5716	0.4734
0.113	35.86	10400	0.5866	0.4748
0.1088	37.24	10800	0.5790	0.4752
0.1074	38.62	11200	0.5966	0.4721
0.1018	40.0	11600	0.5720	0.4668
0.0968	41.38	12000	0.5826	0.4698
0.0874	42.76	12400	0.5937	0.4634
0.0843	44.14	12800	0.6056	0.4640
0.0822	45.52	13200	0.5531	0.4569
0.0806	46.9	13600	0.5669	0.4484
0.072	48.28	14000	0.5683	0.4484
0.0734	49.65	14400	0.5735	0.4437
0.0671	51.03	14800	0.5455	0.4394
0.0617	52.41	15200	0.5838	0.4365
0.0607	53.79	15600	0.6233	0.4397
0.0593	55.17	16000	0.5649	0.4340
0.0551	56.55	16400	0.5923	0.4392
0.0503	57.93	16800	0.5858	0.4325
0.0496	59.31	17200	0.5884	0.4301