wav2vec2-base-timit開源語音識別模型 - 免費部署實現英語語音轉文字

首頁

Wav2vec2 Base Timit Demo Google Colab

由dasolj開發

基於facebook/wav2vec2-base在TIMIT數據集上微調的語音識別模型，專注於英語語音轉文字任務

語音識別

Transformers

開源協議:Apache-2.0 #語音識別 #TIMIT數據集 #低詞錯誤率

下載量 127

發布時間 : 6/27/2022

模型概述

該模型是wav2vec2-base的微調版本，專門用於英語語音識別任務，在TIMIT數據集上訓練，能夠將英語語音轉換為文本

模型特點

基於wav2vec2-base微調

在強大的wav2vec2-base基礎上針對特定任務優化

低詞錯誤率

在評估集上達到0.3424的詞錯誤率(WER)

端到端語音識別

直接將原始音頻輸入轉換為文本輸出

模型能力

英語語音識別

音頻轉文字

自動語音轉錄

使用案例

語音轉錄

會議記錄自動化

將英語會議錄音自動轉換為文字記錄

詞錯誤率約34%

語音筆記轉換

將英語語音筆記轉換為可編輯文本

輔助技術

即時字幕生成

為英語視頻內容生成即時字幕

🚀 wav2vec2-base-timit-demo-google-colab

該模型是在None數據集上對 facebook/wav2vec2-base 進行微調後的版本。它在評估集上取得了以下結果：

損失值：0.5501
詞錯誤率（Wer）：0.3424

🚀 快速開始

此模型是基於特定數據集對基礎模型微調得到，可用於語音相關任務評估，如語音識別等。

📚 詳細文檔

模型描述

更多信息待補充。

預期用途與限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

🔧 技術細節

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：0.0001
訓練批次大小：8
評估批次大小：8
隨機種子：42
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：30
混合精度訓練：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
3.5448	1.0	500	2.5044	1.0
1.0167	2.01	1000	0.5435	0.5278
0.4453	3.01	1500	0.4450	0.4534
0.3	4.02	2000	0.4401	0.4245
0.2304	5.02	2500	0.4146	0.4022
0.1889	6.02	3000	0.4241	0.3927
0.1573	7.03	3500	0.4545	0.3878
0.1363	8.03	4000	0.4936	0.3940
0.1213	9.04	4500	0.4964	0.3806
0.108	10.04	5000	0.4931	0.3826
0.0982	11.04	5500	0.5373	0.3778
0.0883	12.05	6000	0.4978	0.3733
0.0835	13.05	6500	0.5189	0.3728
0.0748	14.06	7000	0.4608	0.3692
0.068	15.06	7500	0.4827	0.3608
0.0596	16.06	8000	0.5022	0.3661
0.056	17.07	8500	0.5482	0.3646
0.0565	18.07	9000	0.5158	0.3573
0.0487	19.08	9500	0.4910	0.3513
0.0444	20.08	10000	0.5771	0.3580
0.045	21.08	10500	0.5160	0.3539
0.0363	22.09	11000	0.5367	0.3503
0.0313	23.09	11500	0.5773	0.3500
0.0329	24.1	12000	0.5683	0.3508
0.0297	25.1	12500	0.5355	0.3464
0.0272	26.1	13000	0.5317	0.3450
0.0256	27.11	13500	0.5602	0.3443
0.0242	28.11	14000	0.5586	0.3419
0.0239	29.12	14500	0.5501	0.3424