wav2vec2-large-xlsr-gu Open-source Model - Free Implementation of Automatic Speech Recognition for Gujarati

Wav2vec2 Large Xlsr Gu

Developed by gchhablani

Gujarati automatic speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, achieving 23.55% WER on OpenSLR dataset

Speech Recognition OtherOpen Source License:Apache-2.0 #Gujarati Speech Recognition #XLSR-53 Fine-tuning #Low-resource Language Processing

Downloads 3,582

Release Time : 3/2/2022

Model Overview

This is a model for Gujarati Automatic Speech Recognition (ASR), fine-tuned based on XLSR Wav2Vec2 architecture, supporting 16kHz sampling rate voice input.

Model Features

High Accuracy Speech Recognition

Achieves 23.55% Word Error Rate (WER) on OpenSLR Gujarati test set

No Language Model Required

Can be used directly without additional language model support

Multi-Sampling Rate Support

Built-in resampling function to handle audio inputs with different sampling rates

Model Capabilities

Gujarati Speech Recognition

Audio to Text Conversion

Speech Content Analysis

Use Cases

Speech Transcription

Gujarati Speech Transcription

Convert Gujarati speech content to text

Accuracy rate of 76.45% (WER 23.55%)

Voice Assistants

Gujarati Voice Command Recognition

For developing Gujarati voice assistants and control systems

🚀 Wav2Vec2-Large-XLSR-53-Gujarati

This model is fine-tuned from facebook/wav2vec2-large-xlsr-53 on Gujarati using the OpenSLR SLR78 dataset. It's designed for automatic speech recognition of Gujarati.

🚀 Quick Start

Fine-tuned facebook/wav2vec2-large-xlsr-53 on Gujarati using the OpenSLR SLR78 dataset. When using this model, make sure that your speech input is sampled at 16kHz.

✨ Features

Language Support: Specifically fine - tuned for Gujarati language.
Sampling Requirement: Requires speech input sampled at 16kHz.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

The model can be used directly (without a language model) as follows, assuming you have a dataset with Gujarati sentence and path fields:

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

# test_dataset = #TODO: WRITE YOUR CODE TO LOAD THE TEST DATASET. 
# For sample see the Colab link in Training Section.

processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-gu")
model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-gu")

resampler = torchaudio.transforms.Resample(48_000, 16_000) # The original data was with 48,000 sampling rate. You can change it according to your input.

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset_eval = test_dataset_eval.map(speech_file_to_array_fn)
inputs = processor(test_dataset_eval["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset_eval["sentence"][:2])

Advanced Usage

The model can be evaluated as follows on 10% of the Marathi data on OpenSLR.

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

# test_dataset = #TODO: WRITE YOUR CODE TO LOAD THE TEST DATASET. For sample see the Colab link in Training Section.

wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-gu")
model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-gu")
model.to("cuda")

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\–\…\'\_\’]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), 
        attention_mask=inputs.attention_mask.to("cuda")).logits
        pred_ids = torch.argmax(logits, dim=-1)
        batch["pred_strings"] = processor.batch_decode(pred_ids)
        return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))

📚 Documentation

Test Result

Test Result: 23.55 %

Training

90% of the OpenSLR Gujarati Male+Female dataset was used for training, after removing few examples that contained Roman characters. The colab notebook used for training can be found here.

📄 License

This model is released under the apache-2.0 license.

📦 Model Information

Property	Details
Language	Gujarati
Datasets	openslr
Metrics	wer
Tags	audio, automatic - speech - recognition, speech, xlsr - fine - tuning - week
Model Name	XLSR Wav2Vec2 Large 53 Gujarati by Gunjan Chhablani
Task	Speech Recognition (automatic - speech - recognition)
Test Dataset	OpenSLR gu (openslr)
Test WER	23.55

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご