wav2vec2-large-xls-r-300m-pt-colab開源語音識別模型

首頁

Wav2vec2 Large Xls R 300m Pt Colab

由tonyalves開發

基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的語音識別模型

語音識別

Transformers

開源協議:Apache-2.0 #語音識別 #多語言支持 #低詞錯誤率

下載量 17

發布時間 : 3/2/2022

模型概述

該模型是一個用於語音識別任務的預訓練模型，經過微調後能夠將語音轉換為文本。

模型特點

高效語音識別

基於wav2vec2架構，能夠高效準確地將語音轉換為文本

大規模預訓練

基於3億參數的大規模預訓練模型，具有強大的特徵提取能力

微調優化

在common_voice數據集上進行微調，優化了識別性能

模型能力

語音識別

音頻轉文本

自動語音轉錄

使用案例

語音轉錄

會議記錄

自動將會議錄音轉換為文字記錄

詞錯誤率約30%

字幕生成

為視頻內容自動生成字幕

語音助手

語音指令識別

識別用戶語音指令

🚀 wav2vec2-large-xls-r-300m-pt-colab

本模型是 facebook/wav2vec2-xls-r-300m 在 common_voice 數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.3637
字錯率（Wer）：0.2982

🚀 快速開始

此模型為語音相關模型，可用於語音識別等任務。通過微調預訓練模型，在特定數據集上進行訓練，以適應特定的語音識別場景。

📦 安裝指南

文檔中未提及安裝步驟，暫不提供。

💻 使用示例

文檔中未提供代碼示例，暫不展示。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	微調後的 wav2vec2-large-xls-r-300m 模型
訓練數據	common_voice 數據集

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：30
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
4.591	1.15	400	0.9128	0.6517
0.5049	2.31	800	0.4596	0.4437
0.2871	3.46	1200	0.3964	0.3905
0.2077	4.61	1600	0.3958	0.3744
0.1695	5.76	2000	0.4040	0.3720
0.1478	6.92	2400	0.3866	0.3651
0.1282	8.07	2800	0.3987	0.3674
0.1134	9.22	3200	0.4128	0.3688
0.1048	10.37	3600	0.3928	0.3561
0.0938	11.53	4000	0.4048	0.3619
0.0848	12.68	4400	0.4229	0.3555
0.0798	13.83	4800	0.3974	0.3468
0.0688	14.98	5200	0.3870	0.3503
0.0658	16.14	5600	0.3875	0.3351
0.061	17.29	6000	0.4133	0.3417
0.0569	18.44	6400	0.3915	0.3414
0.0526	19.6	6800	0.3957	0.3231
0.0468	20.75	7200	0.4110	0.3301
0.0407	21.9	7600	0.3866	0.3186
0.0384	23.05	8000	0.3976	0.3193
0.0363	24.21	8400	0.3910	0.3177
0.0313	25.36	8800	0.3656	0.3109
0.0293	26.51	9200	0.3712	0.3092
0.0277	27.66	9600	0.3613	0.3054
0.0249	28.82	10000	0.3783	0.3015
0.0234	29.97	10400	0.3637	0.2982