wav2vec2-base-checkpoint-12開源模型 - 免費部署高效助力語音識別任務

Wav2vec2 Base Checkpoint 12

由jiobiala24開發

該模型是基於wav2vec2-base-checkpoint-11.1在common_voice數據集上微調的版本，主要用於語音識別任務。

下載量 16

發布時間 : 3/2/2022

模型概述

wav2vec2-base-checkpoint-12是一個基於wav2vec2架構的語音識別模型，在common_voice數據集上進行了微調。

高效微調

基於wav2vec2-base-checkpoint-11.1在common_voice數據集上進行微調，優化了語音識別性能。

低詞錯誤率

在評估集上取得了0.3452的詞錯誤率(WER)，表現良好。

混合精度訓練

使用原生AMP進行混合精度訓練，提高了訓練效率。

語音識別

音頻轉文本

語音轉寫

語音轉文本

將語音音頻轉換為文本內容

詞錯誤率0.3452

本模型是 jiobiala24/wav2vec2-base-checkpoint-11.1 在 common_voice 數據集上的微調版本。它在評估集上取得了以下結果：

此模型可直接用於語音相關任務，基於微調後的參數進行推理。

本模型是基於預訓練模型 jiobiala24/wav2vec2-base-checkpoint-11.1 在 common_voice 數據集上進行微調得到的。

文檔暫未提供相關信息。

文檔暫未提供相關信息。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.2793	1.64	1000	0.5692	0.3518
0.2206	3.28	2000	0.6127	0.3460
0.1733	4.93	3000	0.6622	0.3580
0.1391	6.57	4000	0.6768	0.3519
0.1193	8.21	5000	0.7559	0.3540
0.1053	9.85	6000	0.7873	0.3562
0.093	11.49	7000	0.8170	0.3612
0.0833	13.14	8000	0.8682	0.3579
0.0753	14.78	9000	0.8317	0.3573
0.0698	16.42	10000	0.9213	0.3525
0.0623	18.06	11000	0.9746	0.3531
0.0594	19.7	12000	1.0027	0.3502
0.0538	21.35	13000	1.0045	0.3545
0.0504	22.99	14000	0.9821	0.3523
0.0461	24.63	15000	1.0818	0.3462
0.0439	26.27	16000	1.0995	0.3495
0.0421	27.91	17000	1.0533	0.3430
0.0415	29.56	18000	1.0795	0.3452