wav2vec2-xls-r-300m-cv8-turkish開源模型 - 精準實現土耳其語自動語音識別

首頁

Wav2vec2 Xls R 300m Cv8 Turkish

由Baybars開發

這是一個基於Facebook的wav2vec2-xls-r-300m模型在土耳其語Common Voice 8數據集上微調的自動語音識別(ASR)模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #土耳其語語音識別 #低詞錯誤率 #Common Voice微調

下載量 16

發布時間 : 3/2/2022

模型概述

該模型專門用於土耳其語的語音識別任務，在Common Voice 8數據集上訓練，並取得了較好的詞錯誤率和字符錯誤率表現。

模型特點

高性能土耳其語識別

在Common Voice測試集上取得了30.98%的詞錯誤率和7.64%的字符錯誤率

基於大規模預訓練模型

基於Facebook的wav2vec2-xls-r-300m模型微調，具有強大的語音特徵提取能力

結合N-gram語言模型

使用土耳其語維基百科訓練的N-gram語言模型進行解碼，提高識別準確率

模型能力

土耳其語語音識別

長音頻處理(支持分塊處理)

高準確率字符級識別

使用案例

語音轉文字

土耳其語語音轉錄

將土耳其語語音內容轉換為文字

在Common Voice測試集上WER 30.98%

語音助手

土耳其語語音指令識別

用於土耳其語語音助手系統的語音指令識別

🚀 土耳其語自動語音識別模型

本模型是基於預訓練模型的微調版本，可用於土耳其語的自動語音識別任務，在相關評估集上取得了較好的結果。

🚀 快速開始

在運行評估之前，請安裝 unicode_tr 包，它用於土耳其語文本處理。

評估命令

在 mozilla-foundation/common_voice_7_0 數據集的 test 分割集上進行評估：

python eval.py --model_id Baybars/wav2vec2-xls-r-300m-cv8-turkish --dataset mozilla-foundation/common_voice_8_0 --config tr --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id Baybars/wav2vec2-xls-r-300m-cv8-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

✨ 主要特性

本模型是 facebook/wav2vec2-xls-r-300m 在 COMMON_VOICE - TR 數據集上的微調版本。
採用 N - gram 語言模型，由 mpoyraz 在土耳其維基百科文章上使用 KenLM 進行訓練。

📦 安裝指南

運行評估前，需安裝 unicode_tr 包用於土耳其語文本處理。

🔧 技術細節

模型描述

本模型是 facebook/wav2vec2-xls-r-300m 在 COMMON_VOICE - TR 數據集上的微調版本，在評估集上取得了如下結果：

損失（Loss）：0.4164
詞錯誤率（Wer）：0.3098
字符錯誤率（Cer）：0.0764

語言模型

N - gram 語言模型由 mpoyraz 在土耳其維基百科文章上使用 KenLM 進行訓練，使用 ngram - lm - wiki 倉庫生成 arpa LM 並將其轉換為二進制格式。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.0005
訓練批次大小（train_batch_size）：64
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：Adam，β = (0.9, 0.999)，ε = 1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練輪數（num_epochs）：100.0
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率	字符錯誤率
0.6356	9.09	500	0.5055	0.5536	0.1381
0.3847	18.18	1000	0.4002	0.4247	0.1065
0.3377	27.27	1500	0.4193	0.4167	0.1078
0.2175	36.36	2000	0.4351	0.3861	0.0974
0.2074	45.45	2500	0.3962	0.3622	0.0916
0.159	54.55	3000	0.4062	0.3526	0.0888
0.1882	63.64	3500	0.3991	0.3445	0.0850
0.1766	72.73	4000	0.4214	0.3396	0.0847
0.116	81.82	4500	0.4182	0.3265	0.0812
0.0718	90.91	5000	0.4259	0.3191	0.0781
0.019	100.0	5500	0.4164	0.3098	0.0764