Open-source model wav2vec2-xls-r-1b-portuguese - Accurately implement automatic Portuguese speech recognition

Wav2vec2 Xls R 1b Portuguese

Developed by jonatasgrosman

This is a Portuguese automatic speech recognition model based on the XLS-R 1B architecture, fine-tuned on multiple Portuguese speech datasets.

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Portuguese speech recognition #High-precision WER #Multi-dataset training

Downloads 648.50k

Release Time : 3/2/2022

Model Overview

This model is specifically optimized for Portuguese speech recognition tasks, capable of converting Portuguese speech into text.

Model Features

High-performance Portuguese recognition

Achieves 8.7% WER and 2.55% CER on the Common Voice 8.0 test set

Multi-dataset training

Trained using multiple datasets including Common Voice 8.0, CORAA, Multilingual TEDx, and Multilingual LibriSpeech

Supports language model integration

Combining with a language model can further reduce WER to 6.04%

Model Capabilities

Portuguese speech recognition

Automatic speech-to-text

Supports 16kHz sampling rate audio processing

Use Cases

Speech transcription

Speech-to-text services

Convert Portuguese speech content into text transcripts

Highly accurate transcription results

Voice assistants

Portuguese voice command recognition

Used for voice command recognition in Portuguese voice assistants or smart home devices

🚀 Fine-tuned XLS-R 1B model for speech recognition in Portuguese

This fine-tuned model is based on facebook/wav2vec2-xls-r-1b and trained on Portuguese using the train and validation splits of Common Voice 8.0, CORAA, Multilingual TEDx, and Multilingual LibriSpeech. When using this model, ensure that your speech input is sampled at 16kHz.

This model has been fine-tuned by the HuggingSound tool, and thanks to the GPU credits generously given by the OVHcloud.

🚀 Quick Start

✨ Features

Automatic Speech Recognition: Capable of accurately transcribing Portuguese speech.
Fine-tuned on Multiple Datasets: Utilizes data from Common Voice 8.0, CORAA, Multilingual TEDx, and Multilingual LibriSpeech.

📦 Installation

No specific installation steps are provided in the original README.

💻 Usage Examples

Basic Usage

Using the HuggingSound library:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-xls-r-1b-portuguese")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

Advanced Usage

Writing your own inference script:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "pt"
MODEL_ID = "jonatasgrosman/wav2vec2-xls-r-1b-portuguese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

📚 Documentation

Evaluation Commands

To evaluate on mozilla-foundation/common_voice_8_0 with split test

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-portuguese --dataset mozilla-foundation/common_voice_8_0 --config pt --split test

To evaluate on speech-recognition-community-v2/dev_data

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-portuguese --dataset speech-recognition-community-v2/dev_data --config pt --split validation --chunk_length_s 5.0 --stride_length_s 1.0

🔧 Technical Details

Property	Details
Model Type	Fine-tuned XLS-R 1B model for Portuguese speech recognition
Training Data	Train and validation splits of Common Voice 8.0, CORAA, Multilingual TEDx, and Multilingual LibriSpeech

📄 License

This model is licensed under the Apache-2.0 license.

📦 Model Index

Name: XLS-R Wav2Vec2 Portuguese by Jonatas Grosman
Results:
- Task: Automatic Speech Recognition
  - Dataset: Common Voice 8 (mozilla-foundation/common_voice_8_0 with pt args)
    - Metrics:
      - Test WER: 8.7
      - Test CER: 2.55
      - Test WER (+LM): 6.04
      - Test CER (+LM): 1.98
- Task: Automatic Speech Recognition
  - Dataset: Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data with pt args)
    - Metrics:
      - Dev WER: 24.23
      - Dev CER: 11.3
      - Dev WER (+LM): 19.41
      - Dev CER (+LM): 10.19
- Task: Automatic Speech Recognition
  - Dataset: Robust Speech Event - Test Data (speech-recognition-community-v2/eval_data with pt args)
    - Metrics:
      - Test WER: 18.8

📖 Citation

If you want to cite this model you can use this:

@misc{grosman2021xlsr-1b-portuguese,
  title={Fine-tuned {XLS-R} 1{B} model for speech recognition in {P}ortuguese},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-portuguese}},
  year={2022}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご