Wav2vec2 - 2 - GPT2 - Regularization Open-source ASR Model - Accurately Convert English Speech to Text for Free

Wav2vec2 2 Gpt2 Regularisation

Developed by sanchit-gandhi

This is an automatic speech recognition (ASR) model trained on the LibriSpeech dataset, capable of converting English speech into text.

Speech Recognition

Transformers

#High Word Error Rate #English Speech Recognition #Low Training Loss

Downloads 20

Release Time : 3/17/2022

Model Overview

This model is an automatic speech recognition model trained from scratch on the LibriSpeech ASR dataset, primarily used for English speech-to-text tasks.

Model Features

High Accuracy

Achieves a low word error rate (WER) on the LibriSpeech evaluation set

End-to-End Training

The model is trained from scratch and does not rely on pre-trained models

Optimized Training

Uses the Adam optimizer and linear learning rate scheduler for training

Model Capabilities

English Speech Recognition

Continuous Speech-to-Text

Large-Scale Speech Data Processing

Use Cases

Speech Transcription

Audiobook Transcription

Automatically transcribe English audiobooks into text

Word error rate is approximately 0.9977

Meeting Minutes

Automatically record English meeting content

Voice Assistants

Voice Command Recognition

Recognize English voice commands

Training Loss	Epoch	Step	Validation Loss	Wer
3.5506	2.8	2500	4.4928	1.8772
0.5145	5.61	5000	1.8942	1.1063
0.2736	8.41	7500	1.6550	1.0372
0.0807	11.21	10000	1.7601	1.0004
0.0439	14.01	12500	1.8014	1.0022
0.043	16.82	15000	1.8534	1.0097
0.0434	19.62	17500	1.8529	0.9977

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 2 Gpt2 Regularisation

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Speech Model Trained on Librispeech_asr

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions