Open-source model wav2vec2-xls-r-1b-italian-doc4lm-5gram - Supports Italian speech recognition with a language model

Home

Wav2vec2 Xls R 1b Italian Doc4lm 5gram

Developed by radiogroup-crits

Italian speech recognition model fine-tuned from XLS-R 1B parameter model, supports recognition with language model

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Italian speech recognition #Low character error rate #Broadcast news transcription

Downloads 19

Release Time : 3/29/2022

Model Overview

An XLS-R model optimized for Italian speech recognition, fine-tuned using multiple Italian datasets, supporting high-accuracy recognition with language model

Model Features

Large-scale pretrained model

Fine-tuned from 1B-parameter XLS-R model with powerful speech feature extraction capabilities

Multi-dataset training

Trained using various Italian datasets including Common Voice 8.0, Multilingual TEDx, Multilingual LibriSpeech and Voxpopuli

Language model support

Provides version with 5-gram language model, significantly improving recognition accuracy

Low error rate

Achieves 6.24% Word Error Rate (WER) and 1.67% Character Error Rate (CER) on Common Voice 8.0 test set

Model Capabilities

Italian speech recognition

High-accuracy speech-to-text

Supports 16kHz sample rate audio processing

Use Cases

Speech transcription

Broadcast content transcription

Automatically transcribe Italian broadcast programs into text

High-accuracy transcription results suitable for content archiving and analysis

Voice assistant

Provide speech recognition capability for Italian voice assistants

Low-latency, high-precision voice command recognition

Education

Language learning applications

Help learners practice Italian pronunciation and listening

Accurate pronunciation assessment and text feedback

🚀 XLS-R-1B-ITALIAN-DOC4LM-5GRAM

A fine-tuned XLS-R 1B model for Italian speech recognition, leveraging multiple datasets for enhanced performance.

🚀 Quick Start

This is a fine-tuned facebook/wav2vec2-xls-r-1b model for Italian speech recognition. It was fine-tuned on the train and validation splits of Common Voice 8.0, Multilingual TEDx, Multilingual LibriSpeech, and Voxpopuli.

When using this model, ensure that your speech input is sampled at 16kHz.

✨ Features

Multilingual Datasets: Trained on multiple datasets to improve the performance of Italian speech recognition.
Language Model: The language model is generated using a dataset of Italian wikipedia articles and manual transcriptions of radio newspapers and television programs.

📦 Installation

Download CommonVoice8.0 dataset for Italian language

from datasets import load_dataset

dataset = load_dataset("mozilla-foundation/common_voice_8_0", "it", use_auth_token=True)

💻 Usage Examples

Evaluation Commands

To evaluate on mozilla-foundation/common_voice_8_0 with split test:

python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs --greedy

mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_greedy.txt

mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_greedy.txt

mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_greedy.txt

python eval.py --model_id radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram --dataset mozilla-foundation/common_voice_8_0 --config it --split test --log_outputs

mv log_mozilla-foundation_common_voice_8_0_it_test_predictions.txt log_mozilla-foundation_common_voice_8_0_it_test_predictions_lm.txt

mv log_mozilla-foundation_common_voice_8_0_it_test_targets.txt log_mozilla-foundation_common_voice_8_0_it_test_targets_lm.txt

mv mozilla-foundation_common_voice_8_0_it_test_eval_results.txt mozilla-foundation_common_voice_8_0_it_test_eval_results_lm.txt

📚 Documentation

Model Information

Property	Details
Model Type	Fine-tuned XLS-R 1B for Italian speech recognition
Training Data	Common Voice 8.0, Multilingual TEDx, Multilingual LibriSpeech, Voxpopuli
Metrics	WER, CER
Tags	audio, automatic-speech-recognition, hf-asr-leaderboard, it, mozilla-foundation/common_voice_8_0, speech, wav2vec2

Model Results

Task: Speech Recognition (automatic-speech-recognition)
Dataset: Common Voice 8.0 Italian (mozilla-foundation/common_voice_8_0, args: it) | Metric | Value | |--------|-------| | Test WER | 9.04 | | Test CER | 2.2 | | Test WER (+LM) | 6.24 | | Test CER (+LM) | 1.67 |

📄 License

This model is licensed under the Apache-2.0 license.

📖 Citation

If you want to cite this model you can use this:

@misc{crits2022wav2vec2-xls-r-1b-italian-doc4lm-5gram,
  title={XLS-R Wav2Vec2 Italian by radiogroup crits},
  author={Teraoni Prioletti Raffaele, Casagranda Paolo and Russo Francesco},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/radiogroup-crits/wav2vec2-xls-r-1b-italian-doc4lm-5gram}},
  year={2022}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご