wav2vec2-large-xls-r-300m-ia開源語音識別模型 - 免費部署精準識別多國語言語音

首頁

Wav2vec2 Large Xls R 300m Ia

由ayameRushia開發

基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0國際語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #國際語語音識別 #低詞錯誤率 #多語言支持

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是一個針對國際語優化的自動語音識別(ASR)模型，在Common Voice 8.0數據集上微調，支持將語音轉換為文本。

模型特點

高性能語音識別

在Common Voice 8.0國際語測試集上取得了8.6074%的詞錯誤率(WER)和2.4147%的字錯誤率(CER)

語言模型支持

支持使用語言模型進行解碼，顯著提升識別準確率

基於大規模預訓練模型

基於facebook/wav2vec2-xls-r-300m模型微調，繼承了其強大的語音特徵提取能力

模型能力

語音轉文本

國際語語音識別

支持語言模型解碼

使用案例

語音轉錄

國際語語音轉錄

將國際語語音內容轉換為文本

在測試集上達到8.6074%的詞錯誤率

語音助手

國際語語音指令識別

識別國際語語音指令

🚀 wav2vec2-large-xls-r-300m-ia

該模型是在通用語音（Common Voice）數據集上對 facebook/wav2vec2-xls-r-300m 進行微調後的版本。它在自動語音識別任務中表現出色，能夠有效處理相關語音數據，為語音識別領域提供了有力的支持。

🚀 快速開始

此模型是在通用語音數據集上對 facebook/wav2vec2-xls-r-300m 進行微調的版本。它在評估集上取得了以下結果：

損失（Loss）：0.1452
字錯誤率（Wer）：0.1253

✨ 主要特性

微調模型：基於 facebook/wav2vec2-xls-r-300m 進行微調，更適配通用語音數據集。
多指標評估：使用損失、字錯誤率（Wer）、字符錯誤率（CER）等多種指標進行評估，全面衡量模型性能。

📚 詳細文檔

訓練過程

訓練在 Google Colab 中進行，訓練筆記本可在倉庫中找到。

訓練和評估數據

語言模型是根據數據集（國際語的通用語音 8.0）的訓練 + 驗證分割中的處理後句子文本創建的。評估在筆記本中進行，你可以在倉庫中的 "notebook_evaluation_wav2vec2_ia.ipynb" 裡查看。

評估指標

不使用語言模型（LM）的測試字錯誤率（WER）：20.1776 %
不使用語言模型（LM）的測試字符錯誤率（CER）：4.7205 %
使用語言模型（LM）的測試字錯誤率（WER）：8.6074 %
使用語言模型（LM）的測試字符錯誤率（CER）：2.4147 %

評估命令

使用 eval.py 進行評估：

huggingface-cli login # 登錄到 huggingface 獲取訪問通用語音 v8 的認證令牌
# 使用語言模型（LM）運行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test

# 不使用語言模型（LM）運行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率（learning_rate）	3e-05
訓練批次大小（train_batch_size）	16
評估批次大小（eval_batch_size）	4
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	2
總訓練批次大小（total_train_batch_size）	32
優化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型（lr_scheduler_type）	線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）	400
訓練輪數（num_epochs）	30
混合精度訓練（mixed_precision_training）	原生自動混合精度（Native AMP）

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	字錯誤率（Wer）
7.432	1.87	400	2.9636	1.0
2.6922	3.74	800	2.2111	0.9977
1.2581	5.61	1200	0.4864	0.4028
0.6232	7.48	1600	0.2807	0.2413
0.4479	9.35	2000	0.2219	0.1885
0.3654	11.21	2400	0.1886	0.1606
0.323	13.08	2800	0.1716	0.1444
0.2935	14.95	3200	0.1687	0.1443
0.2707	16.82	3600	0.1632	0.1382
0.2559	18.69	4000	0.1507	0.1337
0.2433	20.56	4400	0.1572	0.1358
0.2338	22.43	4800	0.1489	0.1305
0.2258	24.3	5200	0.1485	0.1278
0.2218	26.17	5600	0.1470	0.1272
0.2169	28.04	6000	0.1470	0.1270
0.2117	29.91	6400	0.1452	0.1253