ASCEND_Dataset_Model開源語音識別模型 - 精準識別語音內容，免費使用！

ASCEND Dataset Model

由GleamEyeBeast開發

基於facebook/wav2vec2-xls-r-300m微調的語音識別模型，在ASCEND數據集上訓練

下載量 22

發布時間 : 3/14/2022

模型概述

該模型是用於自動語音識別(ASR)任務的微調模型，能夠將語音轉換為文本

基於大規模預訓練模型微調

基於facebook/wav2vec2-xls-r-300m預訓練模型進行微調，具備強大的語音特徵提取能力

優化後的識別性能

經過20輪訓練後，在驗證集上達到0.9540的詞錯誤率(WER)

高效訓練配置

採用混合精度訓練和梯度累積等技術，優化訓練效率

語音轉文本

自動語音識別

語音內容轉錄

語音轉錄

會議記錄自動生成

將會議錄音自動轉換為文字記錄

準確率約95.4%

語音指令識別

識別用戶語音指令並轉換為可執行命令

ASCEND_Dataset_Model 是在未知數據集上對 facebook/wav2vec2-xls-r-300m 進行微調後的模型。該模型在評估集上取得了以下成果：

本模型是基於特定數據集對預訓練模型進行微調得到的，你可以根據需求使用該模型進行相關的語音任務。

目前暫無更多信息。

目前暫無更多信息。

目前暫無更多信息。

訓練過程中使用了以下超參數：

屬性	詳情
學習率（learning_rate）	0.0003
訓練批次大小（train_batch_size）	8
評估批次大小（eval_batch_size）	1
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	2
總訓練批次大小（total_train_batch_size）	16
優化器（optimizer）	Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型（lr_scheduler_type）	線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）	500
訓練輪數（num_epochs）	20
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練損失	輪數	步數	驗證損失	字錯率（Wer）	字符錯誤率（Cer）
16.9063	1.0	687	4.7768	1.0	1.0
5.0252	2.0	1374	4.7004	1.0	1.0
4.9378	3.0	2061	4.6715	1.0	1.0
5.1468	4.0	2748	4.6605	1.0	1.0
4.9353	5.0	3435	4.6470	1.0	1.0
4.913	6.0	4122	4.6177	1.0	1.0
4.8034	7.0	4809	4.7699	1.0	1.0
4.6905	8.0	5496	4.3596	1.0	1.0
4.5251	9.0	6183	4.2670	1.0	1.0
4.4527	10.0	6870	4.2087	1.0	1.0
4.3731	11.0	7557	4.1950	0.9982	0.9997
4.3461	12.0	8244	4.2287	0.9928	0.9988
4.3224	13.0	8931	4.1565	0.9802	0.9971
4.2504	14.0	9618	4.1254	0.9619	0.9937
4.2196	15.0	10305	4.0377	0.9562	0.9913
4.1911	16.0	10992	4.0576	0.9601	0.9887
4.1079	17.0	11679	4.0630	0.9544	0.9857
4.1117	18.0	12366	4.0009	0.9558	0.9880
4.0324	19.0	13053	3.9245	0.9540	0.9877
3.9871	20.0	13740	3.9199	0.9540	0.9868