wav2vec2-large-xls-r-300m-pa-IN-dx1開源模型 - 免費部署實現旁遮普語自動語音識別

首頁

Wav2vec2 Large Xls R 300m Pa IN Dx1

由DrishtiSharma開發

這是一個基於facebook/wav2vec2-xls-r-300m在旁遮普語(印度)數據集上微調的自動語音識別模型

語音識別

Transformers

開源協議:Apache-2.0 #旁遮普語語音識別 #低資源語言優化 #XLS-R架構

下載量 28

發布時間 : 3/2/2022

模型概述

該模型是針對旁遮普語(印度)優化的自動語音識別系統，基於Common Voice 8數據集訓練，適用於語音轉文本任務

模型特點

旁遮普語優化

專門針對旁遮普語(印度)方言優化的語音識別模型

基於大規模預訓練模型

基於facebook/wav2vec2-xls-r-300m模型微調，繼承了強大的語音特徵提取能力

中等規模參數

3億參數的模型規模，平衡了性能和效率

模型能力

語音轉文本

旁遮普語語音識別

自動語音識別

使用案例

語音轉錄

旁遮普語語音轉錄

將旁遮普語(印度)語音轉換為文本

測試集WER 48.73%，CER 16.87%

語音助手

旁遮普語語音指令識別

用於構建支持旁遮普語的語音助手系統

🚀 wav2vec2-large-xls-r-300m-pa-IN-dx1 模型

該模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - PA - IN數據集對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在自動語音識別任務中表現出色，為旁遮普語（pa - IN）的語音識別提供了有效的解決方案。

📦 模型信息

屬性	詳情
模型類型	自動語音識別模型
訓練數據	mozilla - foundation/common_voice_8_0
許可證	Apache - 2.0
標籤	automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、pa - IN、robust - speech - event、hf - asr - leaderboard

📚 詳細文檔

評估結果

該模型在評估集上取得了以下結果：

損失值（Loss）: 1.0855
詞錯誤率（Wer）: 0.4755

評估命令

在mozilla - foundation/common_voice_8_0測試集上評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-pa-IN-dx1 --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test --log_outputs

在speech - recognition - community - v2/dev_data上評估 旁遮普語在speech - recognition - community - v2/dev_data中不可用。

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）: 0.0003
訓練批次大小（train_batch_size）: 16
評估批次大小（eval_batch_size）: 8
隨機種子（seed）: 42
優化器（optimizer）: Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
學習率調度器類型（lr_scheduler_type）: 線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）: 1200
訓練輪數（num_epochs）: 100.0
混合精度訓練（mixed_precision_training）: 原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率
3.4607	9.26	500	2.7746	1.0416
0.3442	18.52	1000	0.9114	0.5911
0.2213	27.78	1500	0.9687	0.5751
0.1242	37.04	2000	1.0204	0.5461
0.0998	46.3	2500	1.0250	0.5233
0.0727	55.56	3000	1.1072	0.5382
0.0605	64.81	3500	1.0588	0.5073
0.0458	74.07	4000	1.0818	0.5069
0.0338	83.33	4500	1.0948	0.5108
0.0223	92.59	5000	1.0986	0.4775