wav2vec2-large-xlsr-53 Open-source Speech Recognition Model - Precise Speech Recognition with Data Augmentation Training

Wav2vec2 Large Xlsr 53 Toy Train Data Augment 0.1.csv

Developed by scasutt

This model is a speech recognition model fine-tuned from facebook/wav2vec2-base, trained using data augmentation techniques

Downloads 22

Release Time : 3/25/2022

Model Overview

A speech recognition model based on the wav2vec2 architecture, suitable for automatic speech-to-text tasks, supporting XLSR-53 multilingual features

Data Augmentation Training

Trained using data augmentation techniques (augmentation ratio of 0.1), potentially improving model robustness

Multilingual Features

Based on XLSR-53 architecture, potentially capable of cross-language transfer learning

Speech recognition

Automatic speech-to-text conversion

Speech transcription

Automatic meeting minutes transcription

Automatically convert meeting recordings into text transcripts

Training Loss	Epoch	Step	Validation Loss	Wer
3.2456	0.84	200	3.6215	1.0
3.0637	1.68	400	3.3918	1.0
3.046	2.52	600	3.4168	1.0
3.0627	3.36	800	3.4695	1.0

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base