wav2vec2-xls-r-300m-english開源語音識別模型 - 精準實現英語語音轉文字

Home

Wav2vec2 Xls R 300m English

Developed by vitouphy

XLS-R-300M是基於facebook/wav2vec2-xls-r-300m在librispeech_asr數據集上微調的英語自動語音識別模型，在LibriSpeech測試集上取得了12.29%的詞錯誤率。

語音識別

Transformers

EnglishOpen Source License:Apache-2.0 #英語語音識別 #低詞錯誤率 #多場景適配

Downloads 21

Release Time : 3/2/2022

Model Overview

該模型是一個英語自動語音識別(ASR)模型，專門針對英語語音到文本轉換任務進行了優化。

Model Features

多數據集表現優異

在LibriSpeech、Common Voice和魯棒語音事件等多個數據集上進行了評估，表現穩定。

高效訓練

採用梯度累積和混合精度訓練等技術，提高了訓練效率。

低詞錯誤率

在LibriSpeech乾淨測試集上達到12.29%的詞錯誤率，表現優秀。

Model Capabilities

英語語音識別

語音轉文本

長音頻處理

Use Cases

語音轉錄

音頻書籍轉錄

將有聲讀物內容轉錄為文本

在LibriSpeech測試集上詞錯誤率12.29%

語音助手

語音命令識別

識別和理解用戶語音命令

在魯棒語音事件測試集上詞錯誤率38.8%

🚀 XLS - R - 300M - 英文

本模型是基於自動語音識別技術，在librispeech_asr數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本，可用於英文語音識別任務，在多個語音識別數據集上進行了評估並取得了一定的指標成績。

📚 詳細文檔

模型描述

該模型是在librispeech_asr數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調得到的。它在評估集上取得了以下結果：

損失值（Loss）：0.1444
詞錯誤率（Wer）：0.1167

預期用途和限制

文檔中未提供該模型預期用途和限制的詳細信息。

訓練和評估數據

文檔中未提供訓練和評估數據的詳細信息。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：5e - 05
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：1000
訓練輪數（num_epochs）：50
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.9365	4.17	500	2.9398	0.9999
1.5444	8.33	1000	0.5947	0.4289
1.1367	12.5	1500	0.2751	0.2366
0.9972	16.66	2000	0.2032	0.1797
0.9118	20.83	2500	0.1786	0.1479
0.8664	24.99	3000	0.1641	0.1408
0.8251	29.17	3500	0.1537	0.1267
0.793	33.33	4000	0.1525	0.1244
0.785	37.5	4500	0.1470	0.1184
0.7612	41.66	5000	0.1446	0.1177
0.7478	45.83	5500	0.1449	0.1176
0.7443	49.99	6000	0.1444	0.1167

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.2 + cu102
Datasets：1.18.2.dev0
Tokenizers：0.11.0

📄 許可證

本模型採用Apache - 2.0許可證。

📊 模型指標

任務	數據集	指標	值
自動語音識別	LibriSpeech (clean)	測試詞錯誤率（Test WER）	12.29
自動語音識別	LibriSpeech (clean)	測試字符錯誤率（Test CER）	3.34
自動語音識別	Robust Speech Event - Dev Data	驗證詞錯誤率（Validation WER）	36.75
自動語音識別	Robust Speech Event - Dev Data	驗證字符錯誤率（Validation CER）	14.83
自動語音識別	Common Voice 8.0	測試詞錯誤率（Test WER）	37.81
自動語音識別	Robust Speech Event - Test Data	測試詞錯誤率（Test WER）	38.8