wav2vec2-large-100k-voxpopuli Portuguese Speech Recognition Model - Open Source for Precise Speech Recognition

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Portuguese

Developed by Edresson

This is a Portuguese speech recognition model based on Facebook's Wav2vec2 Large 100k Voxpopuli, fine-tuned using the Common Voice 7.0 and TTS Portuguese datasets with data augmentation techniques applied.

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Portuguese speech recognition #Data augmentation optimization #Multicorpus training

Downloads 22

Release Time : 3/2/2022

Model Overview

This model specializes in Portuguese speech recognition tasks, improving recognition accuracy through data augmentation and additional fine-tuning with TTS datasets.

Model Features

Data augmentation fine-tuning

Uses TTS-generated data and voice conversion techniques for data augmentation to improve model performance

Multi-dataset training

Combines training with Common Voice 7.0 and specialized TTS Portuguese datasets

High-performance recognition

Achieves a 20.20% word error rate on the Common Voice 7.0 test set

Model Capabilities

Portuguese speech recognition

Audio-to-text conversion

Automatic speech recognition

Use Cases

Speech transcription

Portuguese speech-to-text

Converts Portuguese speech content into text

Word error rate 20.20%

Voice assistants

Portuguese voice command recognition

Used for voice command recognition in Portuguese voice assistant systems

🚀 Wav2vec2 Large 100k Voxpopuli fine-tuned in Portuguese using the Common Voice 7.0, TTS-Portuguese Corpus plus data augmentation

This project fine-tunes the Wav2vec2 Large 100k Voxpopuli model in Portuguese. It uses the Common Voice 7.0, TTS-Portuguese Corpus, and a data augmentation method based on TTS and voice conversion for speech recognition.

🚀 Quick Start

Prerequisites

Ensure you have installed the necessary libraries. You can install them using pip if not already installed.

Using the Model

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

💻 Usage Examples

Basic Usage

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")
model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

Advanced Usage

# Example test with Common Voice Dataset
dataset = load_dataset("common_voice", "ru", split="test", data_dir="./cv-corpus-7.0-2021-07-21")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))

📚 Documentation

Results

For the results check the paper

📄 License

This project is licensed under the Apache-2.0 License.

📦 Model Information

Property	Details
Model Name	Edresson Casanova Wav2vec2 Large 100k Voxpopuli fine-tuned in Portuguese using the Common Voice 7.0, TTS-Portuguese Corpus plus data augmentation
Datasets	Common Voice
Metrics	WER (Word Error Rate)
Tags	audio, speech, wav2vec2, pt, Portuguese-speech-corpus, automatic-speech-recognition, speech, PyTorch
Task	Speech Recognition (automatic-speech-recognition)
Test Common Voice 7.0 WER	20.20

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご