wav2vec2-base-libir-zenodo開源語音識別模型 - 免費用於自動語音識別任務

Wav2vec2 Base Libir Zenodo

由samantharhay開發

該模型是基於facebook/wav2vec2-base-960h在未知數據集上微調的語音識別模型，主要用於自動語音識別任務。

下載量 25

發布時間 : 3/2/2022

模型概述

wav2vec2-base-libir-zenodo是一個基於wav2vec2架構的語音識別模型，經過微調後用於將語音轉換為文本。

基於wav2vec2架構

採用facebook/wav2vec2-base-960h作為基礎模型，具有強大的語音特徵提取能力

微調優化

在特定數據集上進行了30輪微調訓練，優化了語音識別性能

混合精度訓練

使用原生AMP混合精度訓練技術，提高訓練效率

語音識別

音頻轉文本

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

語音筆記

將語音備忘錄轉換為可搜索的文本

本模型是 facebook/wav2vec2-base-960h 在未知數據集上的微調版本。它在評估集上取得了以下結果：

本模型是基於facebook/wav2vec2-base-960h微調而來，可用於語音相關任務。

該模型是在未知數據集上對facebook/wav2vec2-base-960h進行微調得到的，但目前缺少更多詳細信息。

目前缺少該模型預期用途和限制的相關詳細信息。

目前缺少訓練和評估數據的相關詳細信息。

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.053	1.0	31	3.1494	0.7345
2.9742	2.0	62	3.0527	0.7257
2.9139	3.0	93	2.8808	0.7257
2.6586	4.0	124	2.6648	0.6726
2.7117	5.0	155	2.4695	0.6372
2.5173	6.0	186	2.3087	0.6195
2.3665	7.0	217	2.2745	0.6018
2.1276	8.0	248	2.2180	0.5752
2.1624	9.0	279	2.1311	0.5752
2.0312	10.0	310	2.0358	0.5575
2.0652	11.0	341	1.9146	0.5310
1.7963	12.0	372	1.8346	0.5221
1.6811	13.0	403	1.8351	0.5398
1.5929	14.0	434	1.8256	0.4779
1.6644	15.0	465	1.7572	0.4779
1.5411	16.0	496	1.8740	0.4779
1.4027	17.0	527	1.5143	0.4779
1.2634	18.0	558	1.3864	0.4867
1.1053	19.0	589	1.3192	0.4425
1.0517	20.0	620	1.4705	0.4602
1.1033	21.0	651	1.6006	0.4956
0.9992	22.0	682	1.4748	0.5044
0.8987	23.0	713	1.3544	0.4867
0.9656	24.0	744	1.2673	0.4336
0.952	25.0	775	1.3955	0.4071
0.8507	26.0	806	1.3520	0.4425
0.8269	27.0	837	1.8992	0.4336
0.7255	28.0	868	1.9850	0.4425
0.8269	29.0	899	3.0089	0.4425
0.6178	30.0	930	1.4238	0.4336