wav2vec2-large-xlsr-53-hungarian开源语音识别模型

首页

Wav2vec2 Large Xlsr 53 Hungarian

由 sarpba 开发

基于facebook/wav2vec2-large-xlsr-53在匈牙利语Common Voice数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #匈牙利语语音识别 #低词错误率 #Common Voice微调

下载量 17

发布时间 : 3/2/2025

模型简介

这是一个针对匈牙利语优化的自动语音识别(ASR)模型，在Mozilla Common Voice 17.0匈牙利语数据集上微调，能够将匈牙利语语音转换为文本。

模型特点

匈牙利语优化

专门针对匈牙利语语音识别任务进行了微调优化

高性能

在Common Voice测试集上达到17.28%的词错误率，优于同类模型

基于Wav2Vec2架构

采用Facebook先进的Wav2Vec2-large-xlsr-53作为基础模型

模型能力

匈牙利语语音识别

语音转文本

自动语音转录

使用案例

语音转录

匈牙利语语音转录

将匈牙利语语音内容转换为文本

词错误率17.28%

语音助手

匈牙利语语音指令识别

用于匈牙利语语音助手或语音控制系统的语音识别模块

🚀 wav2vec2-large-xlsr-53-hungarian

这个模型是 facebook/wav2vec2-large-xlsr-53 在 MOZILLA-FOUNDATION/COMMON_VOICE_17_0 - HU 数据集上的微调版本。它能够将语音数据转换为文本，在语音识别领域有重要应用价值。

🚀 快速开始

这个模型是 facebook/wav2vec2-large-xlsr-53 在 MOZILLA-FOUNDATION/COMMON_VOICE_17_0 - HU 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.1748
词错误率（Wer）：0.2997

由于忽略了部分字符，训练和测量的词错误率值有所不同。

✨ 主要特性

模型对比

与之前最佳的 wav2vec 模型（在 CV17 上评估）相比，本模型表现更优：

模型名称	词错误率（WER）	字符错误率（CER）
jonatasgrosman/wav2vec2-large-xlsr-53-hungarian	46.199835320230555	9.85170677112479
sarpba/wav2vec2-large-xlsr-53-hungarian	17.27824914378453	3.151354554132789

评估时忽略的字符如下：

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

💻 使用示例

基础用法

import torch
import librosa
import re
import warnings
from datasets import load_dataset
import evaluate
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "hu"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-hungarian"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("mozilla-foundation/common_voice_17_0", LANG_ID, split="test")

wer = evaluate.load("wer")  # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = evaluate.load("cer")  # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py


chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references) * 100}")

🔧 技术细节

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0003
训练批次大小：16
评估批次大小：8
随机种子：42
分布式类型：多 GPU
设备数量：2
梯度累积步数：2
总训练批次大小：64
总评估批次大小：16
优化器：使用 OptimizerNames.ADAMW_TORCH，β值为 (0.9, 0.999)，ε值为 1e-08，无额外优化器参数
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：15.0
混合精度训练：原生 AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
3.7968	1.0	758	0.2848	0.5295
0.2547	2.0	1516	0.1908	0.4222
0.1929	3.0	2274	0.1753	0.4000
0.1532	4.0	3032	0.1558	0.3710
0.1297	5.0	3790	0.1512	0.3536
0.1167	6.0	4548	0.1574	0.3514
0.101	7.0	5306	0.1483	0.3374
0.0859	8.0	6064	0.1490	0.3299
0.0791	9.0	6822	0.1523	0.3250
0.0702	10.0	7580	0.1608	0.3192
0.0629	11.0	8338	0.1664	0.3146
0.0559	12.0	9096	0.1641	0.3103
0.0527	13.0	9854	0.1665	0.3063
0.0468	14.0	10612	0.1691	0.3011
0.0443	15.0	11370	0.1748	0.2998