🚀 arijitx/wav2vec2-xls-r-300m-bengali
本模型是 facebook/wav2vec2-xls-r-300m 在 OPENSLR_SLR53 - 孟加拉語數據集上的微調版本,可用於自動語音識別任務,在評估集上取得了較好的效果。
🚀 快速開始
此模型是在 OPENSLR_SLR53 - 孟加拉語數據集上對 facebook/wav2vec2-xls-r-300m 進行微調得到的。它在評估集上取得了以下結果:
無語言模型時
- 詞錯誤率(WER):0.21726385291857586
- 字符錯誤率(CER):0.04725010353701041
- 詞錯誤率(WER):0.15322879016421437
- 字符錯誤率(CER):0.03413696666806267
注意:在總共 10935 個樣本中,5% 用於評估。評估集有 10935 個示例,這些示例不包含在訓練集中。訓練使用了前 95% 的數據,評估使用了最後 5% 的數據。訓練在 180k 步後停止。輸出預測結果可在文件部分查看。
✨ 主要特性
- 語言支持:支持孟加拉語(bn)的自動語音識別。
- 數據集:基於 openslr、SLR53 和 AI4Bharat/IndicCorp 等數據集進行訓練。
- 評估指標:使用詞錯誤率(WER)和字符錯誤率(CER)進行評估。
📚 詳細文檔
模型信息
屬性 |
詳情 |
支持語言 |
孟加拉語(bn) |
許可證 |
Apache-2.0 |
標籤 |
自動語音識別、孟加拉語、hf-asr-leaderboard、openslr_SLR53、robust-speech-event |
數據集 |
openslr、SLR53、AI4Bharat/IndicCorp |
評估指標 |
詞錯誤率(WER)、字符錯誤率(CER) |
訓練超參數
訓練過程中使用了以下超參數:
dataset_name="openslr"
model_name_or_path="facebook/wav2vec2-xls-r-300m"
dataset_config_name="SLR53"
output_dir="./wav2vec2-xls-r-300m-bengali"
overwrite_output_dir
num_train_epochs="50"
per_device_train_batch_size="32"
per_device_eval_batch_size="32"
gradient_accumulation_steps="1"
learning_rate="7.5e-5"
warmup_steps="2000"
length_column_name="input_length"
evaluation_strategy="steps"
text_column_name="sentence"
chars_to_ignore , ? . ! - ; : \" “ % ‘ ” � — ’ … –
save_steps="2000"
eval_steps="3000"
logging_steps="100"
layerdrop="0.0"
activation_dropout="0.1"
save_total_limit="3"
freeze_feature_encoder
feat_proj_dropout="0.0"
mask_time_prob="0.75"
mask_time_length="10"
mask_feature_prob="0.25"
mask_feature_length="64"
preprocessing_num_workers 32
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.11.0
注意事項
- 訓練和評估代碼修改自:https://github.com/huggingface/transformers/tree/master/examples/research_projects/robust-speech-event 。
- 孟加拉語語音數據在 Common Voice 或 LibriSpeech 多語言數據集中不可用,因此使用了 OpenSLR53。
- 使用最小音頻時長 0.5 秒對訓練數據進行過濾,可能排除了 10 - 20 個樣本。
- OpenSLR53 轉錄文本不用於語言模型訓練和評估。
📄 許可證
本模型使用 Apache-2.0 許可證。