Open-source Speech Recognition Model wav2vec2-large-xlsr-53-mongolian

Wav2vec2 Large Xlsr 53 Mongolian

Developed by anton-l

An automatic speech recognition model fine-tuned for Mongolian using the Common Voice dataset, based on the facebook/wav2vec2-large-xlsr-53 model.

Speech Recognition OtherOpen Source License:Apache-2.0 #Mongolian speech recognition #XLSR fine-tuning #Low-resource language

Downloads 46

Release Time : 3/2/2022

Model Overview

This model is an automatic speech recognition (ASR) model optimized for Mongolian, capable of converting Mongolian speech into text.

Model Features

Mongolian optimization

Specially fine-tuned for Mongolian speech recognition

No language model required

Can be used directly without additional language models

16kHz sampling rate support

Supports speech input with a 16kHz sampling rate

Model Capabilities

Mongolian speech recognition

Speech-to-text

Use Cases

Speech transcription

Mongolian speech transcription

Convert Mongolian speech content into text

Achieved a WER of 38.53% on the Common Voice Mongolian test set

🚀 Wav2Vec2-Large-XLSR-53-Mongolian

This model is fine - tuned from facebook/wav2vec2-large-xlsr-53 on Mongolian using the Common Voice dataset. When using this model, ensure that your speech input is sampled at 16kHz.

Model Information

Property	Details
Language	Mongolian
Datasets	Common Voice
Metrics	WER (Word Error Rate)
Tags	Audio, Automatic Speech Recognition, Speech, XLSR - Fine - Tuning - Week
License	Apache 2.0
Model Name	Mongolian XLSR Wav2Vec2 Large 53 by Anton Lozhkov
Task	Speech Recognition (Automatic Speech Recognition)
Dataset in Evaluation	Common Voice mn
Test WER	38.53

🚀 Quick Start

✨ Features

This model is a fine - tuned version of facebook/wav2vec2-large-xlsr-53 on the Mongolian language, enabling high - quality automatic speech recognition for Mongolian.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

The model can be used directly (without a language model) as follows:

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "mn", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("anton-l/wav2vec2-large-xlsr-53-mongolian")
model = Wav2Vec2ForCTC.from_pretrained("anton-l/wav2vec2-large-xlsr-53-mongolian")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

Advanced Usage

The following code shows how to evaluate the model on the Mongolian test data of Common Voice:

import torch
import torchaudio
import urllib.request
import tarfile
import pandas as pd
from tqdm.auto import tqdm
from datasets import load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

# Download the raw data instead of using HF datasets to save disk space 
data_url = "https://voice-prod-bundler-ee1969a6ce8178826482b88e843c335139bd3fb4.s3.amazonaws.com/cv-corpus-6.1-2020-12-11/mn.tar.gz"
filestream = urllib.request.urlopen(data_url)
data_file = tarfile.open(fileobj=filestream, mode="r|gz")
data_file.extractall()

wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("anton-l/wav2vec2-large-xlsr-53-mongolian")
model = Wav2Vec2ForCTC.from_pretrained("anton-l/wav2vec2-large-xlsr-53-mongolian")
model.to("cuda")

cv_test = pd.read_csv("cv-corpus-6.1-2020-12-11/mn/test.tsv", sep='\t')
clips_path = "cv-corpus-6.1-2020-12-11/mn/clips/"

def clean_sentence(sent):
    sent = sent.lower()
    # replace non-alpha characters with space
    sent = "".join(ch if ch.isalpha() else " " for ch in sent)
    # remove repeated spaces
    sent = " ".join(sent.split())
    return sent

targets = []
preds = []

for i, row in tqdm(cv_test.iterrows(), total=cv_test.shape[0]):
    row["sentence"] = clean_sentence(row["sentence"])
    speech_array, sampling_rate = torchaudio.load(clips_path + row["path"])
    resampler = torchaudio.transforms.Resample(sampling_rate, 16_000)
    row["speech"] = resampler(speech_array).squeeze().numpy()

    inputs = processor(row["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)

    targets.append(row["sentence"])
    preds.append(processor.batch_decode(pred_ids)[0])

print("WER: {:2f}".format(100 * wer.compute(predictions=preds, references=targets)))

Test Result: 38.53 %

📚 Documentation

Training

The Common Voice train and validation datasets were used for training.

📄 License

This model is licensed under the Apache 2.0 license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご