wav2vec2-xls-r-300m-bengali開源模型 - 實現孟加拉語自動語音識別功能

首頁

Wav2vec2 Xls R 300m Bengali

由arijitx開發

基於facebook/wav2vec2-xls-r-300m模型微調的孟加拉語自動語音識別模型，在OpenSLR_SLR53數據集上訓練

語音識別

Transformers

其他開源協議:Apache-2.0 #孟加拉語語音識別 #低字錯誤率(CER)#5-gram語言模型增強

下載量 533

發布時間 : 3/2/2022

模型概述

這是一個針對孟加拉語優化的自動語音識別(ASR)模型，基於Facebook的wav2vec2-xls-r-300m架構微調而成，專門處理孟加拉語語音轉文本任務。

模型特點

高精度孟加拉語識別

在OpenSLR_SLR53測試集上取得0.153的詞錯誤率(WER)和0.034的字錯誤率(CER)

支持語言模型集成

可結合5-gram語言模型進一步提升識別準確率

專業數據集訓練

使用OpenSLR_SLR53孟加拉語專業數據集進行微調

優化的訓練參數

採用音頻時間掩碼(0.75概率)和特徵掩碼(0.25概率)等數據增強技術

模型能力

孟加拉語語音識別

語音轉文本

支持語言模型集成

使用案例

語音轉錄

孟加拉語會議記錄

將孟加拉語會議錄音自動轉錄為文字記錄

準確率達84.7%(WER 0.153)

語音助手

為孟加拉語語音助手提供語音識別能力

教育

語言學習應用

幫助學習者練習孟加拉語發音和聽力

🚀 arijitx/wav2vec2-xls-r-300m-bengali

本模型是 facebook/wav2vec2-xls-r-300m 在 OPENSLR_SLR53 - 孟加拉語數據集上的微調版本，可用於自動語音識別任務，在評估集上取得了較好的效果。

🚀 快速開始

此模型是在 OPENSLR_SLR53 - 孟加拉語數據集上對 facebook/wav2vec2-xls-r-300m 進行微調得到的。它在評估集上取得了以下結果：

無語言模型時

詞錯誤率（WER）：0.21726385291857586
字符錯誤率（CER）：0.04725010353701041

使用基於從 AI4Bharat IndicCorp 數據集中隨機選取的 3000 萬條句子訓練的 5 元語言模型時

詞錯誤率（WER）：0.15322879016421437
字符錯誤率（CER）：0.03413696666806267

注意：在總共 10935 個樣本中，5% 用於評估。評估集有 10935 個示例，這些示例不包含在訓練集中。訓練使用了前 95% 的數據，評估使用了最後 5% 的數據。訓練在 180k 步後停止。輸出預測結果可在文件部分查看。

✨ 主要特性

語言支持：支持孟加拉語（bn）的自動語音識別。
數據集：基於 openslr、SLR53 和 AI4Bharat/IndicCorp 等數據集進行訓練。
評估指標：使用詞錯誤率（WER）和字符錯誤率（CER）進行評估。

📚 詳細文檔

模型信息

屬性	詳情
支持語言	孟加拉語（bn）
許可證	Apache-2.0
標籤	自動語音識別、孟加拉語、hf-asr-leaderboard、openslr_SLR53、robust-speech-event
數據集	openslr、SLR53、AI4Bharat/IndicCorp
評估指標	詞錯誤率（WER）、字符錯誤率（CER）

訓練超參數

訓練過程中使用了以下超參數：

dataset_name="openslr"
model_name_or_path="facebook/wav2vec2-xls-r-300m"
dataset_config_name="SLR53"
output_dir="./wav2vec2-xls-r-300m-bengali"
overwrite_output_dir
num_train_epochs="50"
per_device_train_batch_size="32"
per_device_eval_batch_size="32"
gradient_accumulation_steps="1"
learning_rate="7.5e-5"
warmup_steps="2000"
length_column_name="input_length"
evaluation_strategy="steps"
text_column_name="sentence"
chars_to_ignore , ? . ! - ; : \" “ % ‘ ” � — ’ … –
save_steps="2000"
eval_steps="3000"
logging_steps="100"
layerdrop="0.0"
activation_dropout="0.1"
save_total_limit="3"
freeze_feature_encoder
feat_proj_dropout="0.0"
mask_time_prob="0.75"
mask_time_length="10"
mask_feature_prob="0.25"
mask_feature_length="64"
preprocessing_num_workers 32

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.1+cu102
Datasets 1.17.1.dev0
Tokenizers 0.11.0

注意事項

訓練和評估代碼修改自：https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event 。
孟加拉語語音數據在 Common Voice 或 LibriSpeech 多語言數據集中不可用，因此使用了 OpenSLR53。
使用最小音頻時長 0.5 秒對訓練數據進行過濾，可能排除了 10 - 20 個樣本。
OpenSLR53 轉錄文本不用於語言模型訓練和評估。