Wav2vec2-xls-r-1b Russian: An Open-Source Russian Speech Recognition Model - Accurately Identify Russian Speech Content

Home

Wav2vec2 Xls R 1b Russian

Developed by jonatasgrosman

Russian speech recognition model fine-tuned based on XLS-R 1B architecture, trained on datasets like Common Voice 8.0

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Russian speech recognition #High-precision WER #Multi-dataset training

Downloads 765

Release Time : 3/2/2022

Model Overview

This is an automatic speech recognition (ASR) model optimized for Russian, fine-tuned from Facebook's XLS-R 1B architecture, supporting 16kHz sampling rate audio input.

Model Features

High-performance Russian recognition

Achieves 9.82% WER and 2.3% CER on Common Voice 8.0 test set

Language model enhancement

With language model integration, WER can be reduced to 7.08% and CER to 1.87%

Multi-dataset training

Trained on multiple datasets including Common Voice 8.0, Golos, and Multilingual TEDx

Robust performance

Achieves 14.23% WER on robust speech event test data

Model Capabilities

Russian speech recognition

Speech-to-text

Supports 16kHz sampling rate audio processing

Use Cases

Speech transcription

Russian speech-to-text

Convert Russian speech content into text

Highly accurate transcription results

Voice assistants

Russian voice command recognition

Used for voice command recognition in Russian voice assistants or control systems

Fast and accurate command understanding

🚀 Fine-tuned XLS-R 1B model for speech recognition in Russian

This is a fine - tuned XLS - R 1B model for Russian speech recognition, leveraging multiple datasets and offering high - quality performance.

🚀 Quick Start

This model is a fine - tuned version of facebook/wav2vec2-xls-r-1b on Russian. It uses the train and validation splits of Common Voice 8.0, Golos, and Multilingual TEDx. When using this model, ensure that your speech input is sampled at 16kHz.

This model has been fine - tuned by the HuggingSound tool, and thanks to the GPU credits generously given by the OVHcloud.

✨ Features

Multilingual Datasets: Trained on multiple datasets including Common Voice 8.0, Golos, and Multilingual TEDx, enhancing its robustness.
High - Quality Metrics: Achieves good performance on metrics such as WER and CER in both test and dev datasets.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

Using the HuggingSound library:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-xls-r-1b-russian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

Advanced Usage

Writing your own inference script:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ru"
MODEL_ID = "jonatasgrosman/wav2vec2-xls-r-1b-russian"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

📚 Documentation

Evaluation Commands

To evaluate on mozilla-foundation/common_voice_8_0 with split test

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-russian --dataset mozilla-foundation/common_voice_8_0 --config ru --split test

To evaluate on speech-recognition-community-v2/dev_data

python eval.py --model_id jonatasgrosman/wav2vec2-xls-r-1b-russian --dataset speech-recognition-community-v2/dev_data --config ru --split validation --chunk_length_s 5.0 --stride_length_s 1.0

Model Index

Property	Details
Model Name	XLS - R Wav2Vec2 Russian by Jonatas Grosman
Task	Automatic Speech Recognition
Datasets	Common Voice 8, Robust Speech Event - Dev Data, Robust Speech Event - Test Data
Metrics	Test WER, Test CER, Test WER (+LM), Test CER (+LM), Dev WER, Dev CER, Dev WER (+LM), Dev CER (+LM)
Values	Test WER: 9.82, Test CER: 2.3, Test WER (+LM): 7.08, Test CER (+LM): 1.87, Dev WER: 23.96, Dev CER: 8.88, Dev WER (+LM): 15.88, Dev CER (+LM): 7.42, Test WER (Robust Speech Event - Test Data): 14.23

📄 License

This model is licensed under the Apache - 2.0 license.

📚 Citation

If you want to cite this model you can use this:

@misc{grosman2021xlsr-1b-russian,
  title={Fine-tuned {XLS-R} 1{B} model for speech recognition in {R}ussian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian}},
  year={2022}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご