wav2vec2-large-xlsr-53-polish開源波蘭語語音識別模型

首頁

Wav2vec2 Large Xlsr 53 Polish

由facebook開發

Facebook開發的波蘭語自動語音識別模型，基於Wav2Vec2架構和XLSR-53多語言預訓練模型

語音識別其他開源協議:Apache-2.0 #波蘭語語音識別 #多語言遷移學習 #高精度ASR

下載量 174

發布時間 : 3/2/2022

模型概述

這是一個針對波蘭語優化的自動語音識別模型，基於大規模自監督學習預訓練，適用於語音轉文本任務

模型特點

多語言預訓練基礎

基於XLSR-53多語言模型微調，具有強大的跨語言表示能力

高精度波蘭語識別

專門針對波蘭語優化，在Common Voice測試集上達到24.6%詞錯率

端到端語音識別

直接從原始音頻輸入生成文本輸出，無需傳統ASR系統的複雜組件

模型能力

波蘭語語音識別

音頻轉文本

語音內容轉錄

使用案例

語音轉錄

語音備忘錄轉錄

將波蘭語語音備忘錄自動轉換為可搜索的文本

24.6%詞錯率（在Common Voice測試集上）

客服電話記錄

自動轉錄波蘭語客服通話內容用於後續分析

輔助技術

語音控制應用

為波蘭語用戶提供語音控制界面

🚀 語音自動識別模型評估項目

本項目主要針對基於facebook/wav2vec2-large-xlsr-53-polish模型在Common Voice波蘭語測試集上進行評估，通過一系列處理流程計算字錯率（WER），為語音自動識別相關研究和應用提供數據參考。

🚀 快速開始

環境準備

確保你已經安裝了以下必要的庫：

torchaudio
datasets
transformers
torch

代碼運行

以下是在Common Voice波蘭語測試集上進行評估的代碼示例：

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-polish"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "pl", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = ds.map(map_to_array)


def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

運行結果

運行上述代碼後，得到的字錯率（WER）結果為：24.6 %

💻 使用示例

基礎用法

# 此代碼用於在Common Voice波蘭語測試集上評估模型的字錯率（WER）
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-polish"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "pl", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch

ds = ds.map(map_to_array)


def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

高級用法

此代碼目前主要是基礎的評估流程，若要進行高級拓展，例如更換不同的模型、調整參數等，可以參考以下示例：

# 更換模型名稱以使用不同的預訓練模型
model_name = "new_model_name"
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 調整批量大小
result = ds.map(map_to_pred, batched=True, batch_size=32, remove_columns=list(ds.features.keys()))