xlsr_indonesia開源印尼語自動語音識別模型 - 免費部署精準識別對話內容

首頁

Xlsr Indonesia

由acul3開發

基於XLSR架構微調的印尼語自動語音識別(ASR)模型，在Common Voice印尼語數據集上訓練

語音識別

Transformers

其他開源協議:Apache-2.0 #印尼語語音識別 #XLSR微調 #低WER模型

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是Wav2Vec2 XLSR架構的微調版本，專門用於印尼語的自動語音識別任務。通過Common Voice數據集訓練，可將印尼語語音轉換為文本。

模型特點

基於XLSR架構

利用大規模跨語言語音表示(XLSR)架構，提供更好的語音特徵提取能力

印尼語優化

專門針對印尼語進行微調，適應印尼語的發音特點和語言結構

Common Voice數據集訓練

使用公開的Common Voice印尼語數據集進行訓練，數據質量可靠

模型能力

印尼語語音識別

語音轉文本

音頻內容轉錄

使用案例

語音轉錄

印尼語語音轉錄

將印尼語語音內容轉換為文本格式

在Common Voice測試集上達到25.7%的WER(詞錯誤率)

語音助手

印尼語語音指令識別

用於印尼語語音助手或控制系統的語音指令識別

🚀 印度尼西亞語音識別模型評估項目

本項目專注於在印度尼西亞語的Common Voice數據集上進行語音識別模型的評估，利用Wav2Vec2ForCTC模型實現自動語音識別，為相關研究和應用提供了有效的評估方案。

🚀 快速開始

評估環境準備

在Common Voice印度尼西亞語測試集上進行評估，需要安裝相關依賴庫，以下是評估代碼示例：

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys
model_name = "munggok/xlsr_indonesia"
device = "cuda"
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605
model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)
ds = load_dataset("common_voice", "id", split="test", data_dir="./cv-corpus-6.1-2020-12-11")
resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

數據處理

對數據集進行處理，包括音頻重採樣和文本清理：

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
ds = ds.map(map_to_array)

模型預測

使用模型進行預測，並計算詞錯誤率（WER）：

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))