wav2vec2-large-xlsr-53-W2V2-TATAR-SMALL開源模型 - 精準實現韃靼語自動語音識別

Wav2vec2 Large Xlsr 53 W2V2 TATAR SMALL

由emre開發

該模型是基於facebook/wav2vec2-large-xlsr-53在Common Voice 8數據集上微調的韃靼語(Tatar)自動語音識別模型，測試集WER為53.16%。

下載量 30

發布時間 : 3/2/2022

模型概述

這是一個針對韃靼語優化的自動語音識別模型，基於wav2vec2架構，在Common Voice數據集上微調。

多語言支持

基於XLSR-53預訓練模型，具有跨語言表示能力

語音識別優化

專門針對韃靼語進行微調優化

高效訓練

使用混合精度訓練和梯度累積等技術提高訓練效率

韃靼語語音轉文本

語音識別

語音轉錄

語音轉錄

韃靼語語音轉錄

將韃靼語語音內容轉換為文本

WER 53.16%

語音助手

韃靼語語音命令識別

用於韃靼語語音助手或語音控制系統的語音識別模塊

此模型是 facebook/wav2vec2-large-xlsr-53 在 common_voice 數據集上的微調版本。它在評估集上取得了以下結果：

該模型在 Common Voice 8 數據集（語言為 tt）上進行評估，字錯率（WER）為 53.16%。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
6.2446	1.17	400	3.2621	1.0
1.739	2.35	800	0.5832	0.7688
0.4718	3.52	1200	0.4785	0.6824
0.3574	4.69	1600	0.4814	0.6792
0.2946	5.86	2000	0.4484	0.6506
0.2674	7.04	2400	0.4612	0.6225
0.2349	8.21	2800	0.4600	0.6050
0.2206	9.38	3200	0.4772	0.6048
0.2072	10.56	3600	0.4676	0.6106
0.1984	11.73	4000	0.4816	0.6079
0.1793	12.9	4400	0.4616	0.5836
0.172	14.08	4800	0.4808	0.5860
0.1624	15.25	5200	0.4854	0.5820
0.156	16.42	5600	0.4609	0.5656
0.1448	17.59	6000	0.4926	0.5817
0.1406	18.77	6400	0.4638	0.5654
0.1337	19.94	6800	0.4731	0.5652
0.1317	21.11	7200	0.4861	0.5639
0.1179	22.29	7600	0.4766	0.5521
0.1197	23.46	8000	0.4824	0.5584
0.1096	24.63	8400	0.5006	0.5559
0.1038	25.81	8800	0.4994	0.5440
0.0992	26.98	9200	0.4867	0.5405
0.0984	28.15	9600	0.4798	0.5361
0.0943	29.33	10000	0.4714	0.5316