wav2vec2 - tcrs開源語音識別模型，微調後詞錯誤率低，精準識別語音內容

首頁

Wav2vec2 Tcrs

由neelan-elucidate-ai開發

基於facebook/wav2vec2-large-lv60微調的語音識別模型，在評估集上取得1.0657的詞錯誤率

語音識別

Transformers

開源協議:Apache-2.0 #語音識別 #低詞錯誤率 #微調模型

下載量 20

發布時間 : 5/4/2022

模型概述

該模型是用於語音識別任務的微調模型，基於wav2vec2架構，適用於將語音轉換為文本的應用場景。

模型特點

低詞錯誤率

在評估集上取得了1.0657的詞錯誤率，表現優異

基於wav2vec2架構

採用facebook/wav2vec2-large-lv60作為基礎模型，具有強大的語音特徵提取能力

精細調優

經過100輪精細調優訓練，模型性能得到顯著提升

模型能力

語音轉文本

自動語音識別

使用案例

語音轉錄

會議記錄自動生成

將會議錄音自動轉換為文字記錄

高準確率的轉錄結果

語音助手

用於語音助手的語音識別模塊

快速準確的語音理解

無障礙應用

即時字幕生成

為聽力障礙人士提供即時字幕服務

低延遲高準確率的字幕輸出

🚀 wav2vec2-tcrs

本模型是在None數據集上對facebook/wav2vec2-large-lv60進行微調後的版本。它在評估集上取得了以下結果：

損失值（Loss）：2.9550
字錯率（Wer）：1.0657

🚀 快速開始

本模型基於預訓練模型進行微調，可用於語音相關任務。你可以根據自身需求，結合相關框架使用該模型。

📚 詳細文檔

模型描述

此模型是在特定數據集上對facebook/wav2vec2-large-lv60進行微調得到的，但關於模型的更多詳細信息有待補充。

預期用途與限制

目前關於該模型的預期用途和限制的詳細信息有待進一步完善。

訓練和評估數據

目前關於訓練和評估數據的詳細信息有待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：0.0001
訓練批次大小（train_batch_size）：1
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：Adam，β值為(0.9, 0.999)，ε值為1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：1000
訓練輪數（num_epochs）：100
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率
13.6613	3.38	500	3.2415	1.0
2.9524	6.76	1000	3.0199	1.0
2.9425	10.14	1500	3.0673	1.0
2.9387	13.51	2000	3.0151	1.0
2.9384	16.89	2500	3.0320	1.0
2.929	20.27	3000	2.9691	1.0
2.9194	23.65	3500	2.9596	1.0
2.9079	27.03	4000	2.9279	1.0
2.8957	30.41	4500	2.9647	1.0
2.8385	33.78	5000	2.8114	1.0193
2.6546	37.16	5500	2.6744	1.0983
2.5866	40.54	6000	2.6192	1.1071
2.5475	43.92	6500	2.5777	1.0950
2.5177	47.3	7000	2.5845	1.1220
2.482	50.68	7500	2.5730	1.1264
2.4343	54.05	8000	2.5722	1.0955
2.3754	57.43	8500	2.5781	1.1353
2.3055	60.81	9000	2.6177	1.0972
2.2446	64.19	9500	2.6351	1.1027
2.1625	67.57	10000	2.6924	1.0756
2.1078	70.95	10500	2.6817	1.0795
2.0366	74.32	11000	2.7629	1.0657
1.9899	77.7	11500	2.7972	1.0845
1.9309	81.08	12000	2.8450	1.0734
1.8861	84.46	12500	2.8703	1.0668
1.8437	87.84	13000	2.9308	1.0917
1.8192	91.22	13500	2.9298	1.0701
1.7952	94.59	14000	2.9488	1.0685
1.7745	97.97	14500	2.9550	1.0657