Open-source Portuguese speech recognition model wav2vec2-cv-coral-30ep - Free deployment for accurate speech recognition

Wav2vec2 Cv Coral 30ep

Developed by joaoalvarenga

A Portuguese speech recognition model fine-tuned based on Facebook's wav2vec2-large-xlsr-53 model, trained on the Common Voice dataset

Speech Recognition OtherOpen Source License:Apache-2.0 #Portuguese speech recognition #XLSR fine-tuned model #Low word error rate (15%)

Downloads 27

Release Time : 3/2/2022

Model Overview

This is an automatic speech recognition (ASR) model optimized for Portuguese, fine-tuned based on Facebook's wav2vec2-large-xlsr-53 architecture, suitable for Portuguese speech-to-text tasks.

Model Features

Portuguese Optimization

Specially fine-tuned for Portuguese speech, providing more accurate recognition results

No Language Model Required

Can be used directly without additional language model support

Based on XLSR Architecture

Utilizes the powerful capabilities of Cross-Lingual Speech Representation (XLSR) learning

Model Capabilities

Portuguese speech recognition

Audio to text conversion

Automatic speech transcription

Use Cases

Speech-to-Text

Portuguese Speech Transcription

Convert Portuguese speech content into text

Word error rate 15.037%

🚀 Wav2Vec2-Large-XLSR-53-Portuguese

This model is a fine - tuned version of facebook/wav2vec2-large-xlsr-53 on Portuguese, utilizing the Common Voice dataset, which provides significant value for automatic speech recognition tasks in Portuguese.

Metadata

Property	Details
Language	Portuguese (pt)
Datasets	Common Voice
Metrics	Word Error Rate (WER)
Tags	audio, speech, wav2vec2, pt, apache - 2.0, portuguese - speech - corpus, automatic - speech - recognition, speech, xlsr - fine - tuning - week, PyTorch
License	Apache 2.0
Model Name	JoaoAlvarenga XLSR Wav2Vec2 Large 53 Portuguese A
Task	Speech Recognition (automatic - speech - recognition)
Dataset Used	Common Voice pt
Test WER	15.037146%

🚀 Quick Start

This fine - tuned model facebook/wav2vec2-large-xlsr-53 on Portuguese can be used directly without a language model.

💻 Usage Examples

Basic Usage

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "pt", split="test[:2%]") 

processor = Wav2Vec2Processor.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")
model = Wav2Vec2ForCTC.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

📚 Documentation

Evaluation

The model can be evaluated on the Portuguese test data of Common Voice as follows:

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

test_dataset = load_dataset("common_voice", "pt", split="test")
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")
model = Wav2Vec2ForCTC.from_pretrained("joorock12/wav2vec2-large-xlsr-portuguese-a")
model.to("cuda")

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\â€œ\'\ï¿½]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))

Test Result (wer): 15.037146%

Training

The Common Voice train and validation datasets were used for training. The script used for training can be found at: https://github.com/joaoalvarenga/wav2vec2-large-xlsr-53-portuguese/blob/main/fine-tuning.py

📄 License

This project is licensed under the Apache 2.0 license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご