wav2vec2-large-xls-r-300m-or-d5開源模型 - 免費實現奧里亞語語音精準轉文本

首頁

Wav2vec2 Large Xls R 300m Or D5

由DrishtiSharma開發

這是一個基於facebook/wav2vec2-xls-r-300m在奧里亞語數據集上微調的自動語音識別(ASR)模型，專門用於奧里亞語的語音轉文本任務。

語音識別

Transformers

其他開源協議:Apache-2.0 #奧里亞語語音識別 #低詞錯誤率 #多場景語音處理

下載量 24

發布時間 : 3/2/2022

模型概述

該模型是在Mozilla Common Voice 8.0奧里亞語數據集上微調的語音識別模型，能夠將奧里亞語語音轉換為文本。

模型特點

奧里亞語專用

專門針對奧里亞語優化的語音識別模型

基於大規模預訓練模型

基於facebook/wav2vec2-xls-r-300m模型微調，繼承了其強大的語音特徵提取能力

相對較低的CER

在測試集上取得了15.72%的字符錯誤率(CER)

模型能力

奧里亞語語音識別

語音轉文本

長音頻處理(支持分塊處理)

使用案例

語音轉錄

奧里亞語語音轉錄

將奧里亞語語音內容轉換為文本

測試集WER 57.91%，CER 15.72%

語音助手

奧里亞語語音指令識別

用於奧里亞語語音助手或語音控制系統的前端識別模塊

🚀 wav2vec2-large-xls-r-300m-or-d5

該模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - OR數據集上對facebook/wav2vec2 - xls - r - 300m進行微調後的版本。它在自動語音識別任務中表現出色，能有效處理語音數據並輸出準確的識別結果。

✨ 主要特性

基於預訓練模型facebook/wav2vec2 - xls - r - 300m進行微調，繼承了強大的語音特徵提取能力。
在多個數據集上進行評估，如Common Voice 8和Robust Speech Event - Dev Data，展現出良好的泛化能力。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

評估指標

該模型在評估集上取得了以下結果：

損失值（Loss）: 0.9571
詞錯誤率（Wer）: 0.5450

評估命令

在mozilla - foundation/common_voice_8_0測試集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset mozilla-foundation/common_voice_8_0 --config or --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-or-d5 --dataset speech-recognition-community-v2/dev_data --config or --split validation --chunk_length_s 10 --stride_length_s 1

訓練超參數

以下是訓練過程中使用的超參數：

屬性	詳情
學習率（learning_rate）	0.000111
訓練批次大小（train_batch_size）	16
評估批次大小（eval_batch_size）	8
隨機種子（seed）	42
梯度累積步數（gradient_accumulation_steps）	2
總訓練批次大小（total_train_batch_size）	32
優化器（optimizer）	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
學習率調度器類型（lr_scheduler_type）	linear
學習率調度器熱身步數（lr_scheduler_warmup_steps）	800
訓練輪數（num_epochs）	200
混合精度訓練（mixed_precision_training）	Native AMP

訓練結果

訓練損失（Training Loss）	輪數（Epoch）	步數（Step）	驗證損失（Validation Loss）	詞錯誤率（Wer）
9.2958	12.5	300	4.9014	1.0
3.4065	25.0	600	3.5150	1.0
1.5402	37.5	900	0.8356	0.7249
0.6049	50.0	1200	0.7754	0.6349
0.4074	62.5	1500	0.7994	0.6217
0.3097	75.0	1800	0.8815	0.5985
0.2593	87.5	2100	0.8532	0.5754
0.2097	100.0	2400	0.9077	0.5648
0.1784	112.5	2700	0.9047	0.5668
0.1567	125.0	3000	0.9019	0.5728
0.1315	137.5	3300	0.9295	0.5827
0.1125	150.0	3600	0.9256	0.5681
0.1035	162.5	3900	0.9148	0.5496
0.0901	175.0	4200	0.9480	0.5483
0.0817	187.5	4500	0.9799	0.5516
0.079	200.0	4800	0.9571	0.5450