xls - r - 300m - sv開源自動語音識別模型，精準識別瑞典語語音內容

首頁

Xls R 300m Sv

由hf-test開發

基於facebook/wav2vec2-xls-r-300m在瑞典語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #瑞典語語音識別 #多場景適配 #低詞錯誤率

下載量 28

發布時間 : 3/2/2022

模型概述

這是一個針對瑞典語優化的自動語音識別(ASR)模型，基於XLS-R-300m架構，在Common Voice 7瑞典語數據集上微調，能夠將瑞典語語音轉換為文本。

模型特點

瑞典語優化

專門針對瑞典語語音識別進行微調，在瑞典語數據集上表現優異

多數據集驗證

在Common Voice 7和魯棒語音賽事數據集上均進行了評估

支持語言模型集成

可結合語言模型進一步提升識別準確率

模型能力

瑞典語語音識別

長音頻處理(支持分塊處理)

高準確率文本轉錄

使用案例

語音轉錄

瑞典語語音轉文字

將瑞典語語音內容轉換為文本

測試WER 16.98(CV7), 27.01(魯棒賽事)

語音助手

瑞典語語音指令識別

用於瑞典語語音助手或控制系統

🚀 XLS-R-300m - 瑞典語版

本模型是基於 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - SV - SE 數據集上進行微調的版本。它在自動語音識別任務上表現出色，為瑞典語語音處理提供了有效的解決方案。

✨ 主要特性

基於預訓練模型微調，在瑞典語語音識別任務上有良好表現。
提供了詳細的訓練超參數和評估結果。
支持使用語言模型（LM）進行推理。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "hf-test/xls-r-300m-sv"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"

高級用法

文檔未提供高級用法相關內容，故跳過此部分。

📚 詳細文檔

模型評估結果

本模型在以下數據集上進行了評估，並取得了相應的結果：

數據集	評估指標	值
Common Voice 7（測試集）	測試詞錯誤率（Test WER）	16.98
Common Voice 7（測試集）	測試字符錯誤率（Test CER）	5.66
Robust Speech Event - Dev Data	測試詞錯誤率（Test WER）	27.01
Robust Speech Event - Dev Data	測試字符錯誤率（Test CER）	13.14

評估命令

在 mozilla - foundation/common_voice_7_0 數據集的 test 分割上進行評估：

python eval.py --model_id hf-test/xls-r-300m-sv --dataset mozilla-foundation/common_voice_7_0 --config sv-SE --split test

在 speech - recognition - community - v2/dev_data 數據集上進行評估：

python eval.py --model_id hf-test/xls-r-300m-sv --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0

帶語言模型的推理

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "hf-test/xls-r-300m-sv"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "sv-SE", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text
# => "jag lämnade grovjobbet åt honom"

Common Voice 7 “test” 集的評估結果（WER）

無語言模型	有語言模型（運行 `./eval.py`）
24.68	16.98

🔧 技術細節

訓練超參數

在訓練過程中使用了以下超參數：

學習率（learning_rate）：7.5e - 05
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：32
優化器（optimizer）：Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：2000
訓練輪數（num_epochs）：50.0
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
3.3349	1.45	500	3.2858	1.0
2.9298	2.91	1000	2.9225	1.0000
2.0839	4.36	1500	1.1546	0.8295
1.7093	5.81	2000	0.6827	0.5701
1.5855	7.27	2500	0.5597	0.4947
1.4831	8.72	3000	0.4923	0.4527
1.4416	10.17	3500	0.4670	0.4270
1.3848	11.63	4000	0.4341	0.3980
1.3749	13.08	4500	0.4203	0.4011
1.3311	14.53	5000	0.4310	0.3961
1.317	15.99	5500	0.3898	0.4322
1.2799	17.44	6000	0.3806	0.3572
1.2771	18.89	6500	0.3828	0.3427
1.2451	20.35	7000	0.3702	0.3359
1.2182	21.8	7500	0.3685	0.3270
1.2152	23.26	8000	0.3650	0.3308
1.1837	24.71	8500	0.3568	0.3187
1.1721	26.16	9000	0.3659	0.3249
1.1764	27.61	9500	0.3547	0.3145
1.1606	29.07	10000	0.3514	0.3104
1.1431	30.52	10500	0.3469	0.3062
1.1047	31.97	11000	0.3313	0.2979
1.1315	33.43	11500	0.3298	0.2992
1.1022	34.88	12000	0.3296	0.2973
1.0935	36.34	12500	0.3278	0.2926
1.0676	37.79	13000	0.3208	0.2868
1.0571	39.24	13500	0.3322	0.2885
1.0536	40.7	14000	0.3245	0.2831
1.0525	42.15	14500	0.3285	0.2826
1.0464	43.6	15000	0.3223	0.2796
1.0415	45.06	15500	0.3166	0.2774
1.0356	46.51	16000	0.3177	0.2746
1.04	47.96	16500	0.3150	0.2735
1.0209	49.42	17000	0.3175	0.2731