wav2vec2-large-xlsr-53-polish开源波兰语语音识别模型

首页

Wav2vec2 Large Xlsr 53 Polish

由 facebook 开发

Facebook开发的波兰语自动语音识别模型，基于Wav2Vec2架构和XLSR-53多语言预训练模型

语音识别其他开源协议:Apache-2.0 #波兰语语音识别 #多语言迁移学习 #高精度ASR

下载量 174

发布时间 : 3/2/2022

模型简介

这是一个针对波兰语优化的自动语音识别模型，基于大规模自监督学习预训练，适用于语音转文本任务

模型特点

多语言预训练基础

基于XLSR-53多语言模型微调，具有强大的跨语言表示能力

高精度波兰语识别

专门针对波兰语优化，在Common Voice测试集上达到24.6%词错率

端到端语音识别

直接从原始音频输入生成文本输出，无需传统ASR系统的复杂组件

模型能力

波兰语语音识别

音频转文本

语音内容转录

使用案例

语音转录

语音备忘录转录

将波兰语语音备忘录自动转换为可搜索的文本

24.6%词错率（在Common Voice测试集上）

客服电话记录

自动转录波兰语客服通话内容用于后续分析

辅助技术

语音控制应用

为波兰语用户提供语音控制界面

🚀 语音自动识别模型评估项目

本项目主要针对基于facebook/wav2vec2-large-xlsr-53-polish模型在Common Voice波兰语测试集上进行评估，通过一系列处理流程计算字错率（WER），为语音自动识别相关研究和应用提供数据参考。

🚀 快速开始

环境准备

确保你已经安装了以下必要的库：

torchaudio
datasets
transformers
torch

代码运行

以下是在Common Voice波兰语测试集上进行评估的代码示例：

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-polish"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "pl", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = ds.map(map_to_array)


def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

运行结果

运行上述代码后，得到的字错率（WER）结果为：24.6 %

💻 使用示例

基础用法

# 此代码用于在Common Voice波兰语测试集上评估模型的字错率（WER）
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-polish"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "pl", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = ds.map(map_to_array)


def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

高级用法

此代码目前主要是基础的评估流程，若要进行高级拓展，例如更换不同的模型、调整参数等，可以参考以下示例：

# 更换模型名称以使用不同的预训练模型
model_name = "new_model_name"
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 调整批量大小
result = ds.map(map_to_pred, batched=True, batch_size=32, remove_columns=list(ds.features.keys()))