Galician_xlsr開源自動語音識別模型 - 精準識別加利西亞語語音內容

首頁

Galician Xlsr

由Akashpb13開發

該模型是基於facebook/wav2vec2-xls-r-300m在加利西亞語數據集上微調的自動語音識別模型，在Common Voice 8.0測試集上取得了11.31%的WER。

語音識別

Transformers

其他開源協議:Apache-2.0 #加利西亞語語音識別 #低WER #多方言支持

下載量 110

發布時間 : 3/2/2022

模型概述

這是一個用於加利西亞語的自動語音識別模型，基於XLS-R架構微調而成，適用於語音轉文本任務。

模型特點

多數據集訓練

模型使用了Common Voice加利西亞語數據集中的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv進行訓練

高質量數據篩選

僅使用支持票數高於反對票數的數據點，並在合併數據集後去除重複項

優化的訓練過程

採用cosine_with_restarts學習率調度器，並進行了100輪訓練

模型能力

加利西亞語語音識別

語音轉文本

支持多種語音輸入格式

使用案例

語音轉錄

加利西亞語語音轉錄

將加利西亞語語音轉換為文本

在Common Voice 8.0測試集上WER為11.31%

語音助手

加利西亞語語音助手

用於加利西亞語語音交互系統

🚀 Akashpb13/Galician_xlsr

本模型是基於MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - hu數據集對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在評估集（訓練數據集的10%，與無效數據、報告數據、其他數據和開發數據集合並）上取得了以下結果：

損失值：0.137096
字錯率（WER）：0.196230

✨ 主要特性

基於facebook/wav2vec2 - xls - r - 300m模型微調，適用於加利西亞語的自動語音識別任務。
在多個數據集上進行了評估，具有一定的準確性和魯棒性。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型描述

對"facebook/wav2vec2 - xls - r - 300m"進行了微調。

預期用途與限制

更多信息待補充。

訓練和評估數據

訓練數據：Common voice加利西亞語的train.tsv、dev.tsv、invalidated.tsv、reported.tsv和other.tsv。僅考慮那些贊成票多於反對票的點，並且在合併Common voice 7.0中給出的所有數據集後去除了重複項。

訓練過程

為創建訓練數據集，將所有可能的數據集進行了拼接，並採用了90 - 10的分割方式。

訓練超參數

訓練期間使用了以下超參數：

學習率（learning_rate）：0.000096
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：16
隨機種子（seed）：13
梯度累積步數（gradient_accumulation_steps）：2
學習率調度器類型（lr_scheduler_type）：cosine_with_restarts
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：100
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

步數	訓練損失	驗證損失	字錯率（Wer）
500	5.038100	3.035432	1.000000
1000	2.180000	0.406300	0.557964
1500	0.331700	0.153797	0.262394
2000	0.171600	0.145268	0.235627
2500	0.125900	0.136622	0.228087
3000	0.105400	0.131650	0.224128
3500	0.087600	0.141032	0.217531
4000	0.078300	0.143675	0.214515
4500	0.070000	0.144607	0.208106
5000	0.061500	0.135259	0.202828
5500	0.055600	0.130638	0.203959
6000	0.050500	0.137416	0.202451
6500	0.046600	0.140379	0.200000
7000	0.040800	0.140179	0.200377
7500	0.041000	0.138089	0.196795
8000	0.038400	0.136927	0.197172

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

評估命令

在mozilla - foundation/common_voice_8_0數據集的test分割上進行評估：

python eval.py --model_id Akashpb13/Galician_xlsr --dataset mozilla - foundation/common_voice_8_0 --config gl --split test

🔧 技術細節

模型指標

任務	數據集	指標	值
自動語音識別	Common Voice 8 (kmr)	測試字錯率（Test WER）	0.11308483789555426
自動語音識別	Common Voice 8 (kmr)	測試字符錯誤率（Test CER）	0.023982371794871796
自動語音識別	Robust Speech Event - Dev Data (gl)	測試字錯率（Test WER）	0.11308483789555426
自動語音識別	Robust Speech Event - Dev Data (gl)	測試字符錯誤率（Test CER）	0.023982371794871796
自動語音識別	Common Voice 8.0 (gl)	測試字錯率（Test WER）	11.31
自動語音識別	Robust Speech Event - Test Data (gl)	測試字錯率（Test WER）	39.05