wav2vec2-xls-r-myv-a1開源語音識別模型 - 支持Erzya語言語音精準識別

首頁

Wav2vec2 Xls R Myv A1

由DrishtiSharma開發

該模型是基於facebook/wav2vec2-xls-r-300m在Erzya語言(MYV)數據集上微調的自動語音識別(ASR)模型，在Common Voice 8測試集上取得了65.15%的詞錯誤率(WER)。

語音識別

Transformers

其他開源協議:Apache-2.0 #低資源語言ASR #Erzya語音識別 #多方言魯棒性

下載量 24

發布時間 : 3/2/2022

模型概述

這是一個針對Erzya語言的自動語音識別模型，基於wav2vec2 XLS-R架構微調，適用於將Erzya語音轉換為文本的任務。

模型特點

多語言支持

專門針對Erzya語言優化，適用於低資源語言的語音識別任務

基於XLS-R架構

採用Facebook的wav2vec2 XLS-R 300M參數模型作為基礎，具有強大的語音特徵提取能力

在Common Voice數據集上微調

使用Mozilla Common Voice 8.0的Erzya語言數據進行微調，適應特定語言特點

模型能力

語音轉文本

Erzya語言識別

自動語音識別

使用案例

語音轉寫

Erzya語音轉錄

將Erzya語言的語音內容轉換為文本

在測試集上達到65.15%的詞錯誤率(WER)

語言保護

少數民族語言數字化

幫助記錄和數字化Erzya等少數民族語言的語音資料

🚀 自動語音識別模型 - wav2vec2-xls-r-myv-a1

本模型是基於自動語音識別技術的微調模型，在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYV數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調。它在評估集上取得了較好的效果，可用於自動語音識別相關任務。

📄 許可證

本模型採用Apache - 2.0許可證。

✨ 主要特性

多語言支持：支持Erzya語（myv）的自動語音識別。
多數據集驗證：在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2/dev_data等數據集上進行評估。
評估指標良好：在測試集上有一定的WER和CER指標表現。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	自動語音識別模型（Automatic Speech Recognition）
訓練數據	mozilla - foundation/common_voice_8_0

評估結果

本模型在評估集上取得了以下結果：

Loss: 1.0356
Wer: 0.6524

不同數據集評估指標

數據集名稱	任務類型	測試WER	測試CER
Common Voice 8	自動語音識別	0.6514672686230248	0.17226131905088124
Robust Speech Event - Dev Data	自動語音識別	NA	NA

評估命令

1. 在mozilla - foundation/common_voice_8_0測試集上評估

python eval.py  --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上評估

Erzya語言在speech - recognition - community - v2/dev_data中未找到。

訓練超參數

訓練過程中使用了以下超參數：

learning_rate: 0.0004
train_batch_size: 16
eval_batch_size: 32
seed: 42
optimizer: Adam with betas=(0.9, 0.999) and epsilon = 1e - 08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 800
num_epochs: 200.0
mixed_precision_training: Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
5.649	9.62	500	3.0038	1.0
1.6272	19.23	1000	0.7362	0.7819
1.1354	28.85	1500	0.6410	0.7111
1.0424	38.46	2000	0.6907	0.7431
0.9293	48.08	2500	0.7249	0.7102
0.8246	57.69	3000	0.7422	0.6966
0.7837	67.31	3500	0.7413	0.6813
0.7147	76.92	4000	0.7873	0.6930
0.6276	86.54	4500	0.8038	0.6677
0.6041	96.15	5000	0.8240	0.6831
0.5336	105.77	5500	0.8748	0.6749
0.4705	115.38	6000	0.9006	0.6497
0.43	125.0	6500	0.8954	0.6551
0.3859	134.62	7000	0.9074	0.6614
0.3342	144.23	7500	0.9693	0.6560
0.3155	153.85	8000	1.0073	0.6691
0.2673	163.46	8500	1.0170	0.6632
0.2409	173.08	9000	1.0304	0.6709
0.2189	182.69	9500	0.9965	0.6546
0.1973	192.31	10000	1.0360	0.6551

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

評估命令示例

!python eval.py \
    --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-myv-v1 \
    --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs