Open-source wav2vec2-base-librispeech Speech Recognition Model - Accurately Identify Speech Content with Low Error Rate

Wav2vec2 Base Librispeech Demo Colab

Developed by vishwasgautam

This model is a speech recognition model fine-tuned on the LibriSpeech dataset based on facebook/wav2vec2-base, achieving a word error rate of 0.3174 on the evaluation set.

Speech Recognition

Transformers

Open Source License:Apache-2.0 #Speech Recognition #LibriSpeech Fine-tuning #Low Word Error Rate

Downloads 14

Release Time : 4/25/2025

Model Overview

This is a fine-tuned model for speech recognition tasks, based on the wav2vec2 architecture, suitable for English speech-to-text tasks.

Model Features

Based on wav2vec2 Architecture

Uses facebook's wav2vec2-base as the base model, with excellent speech feature extraction capabilities

Low Word Error Rate

Achieved a word error rate of 0.3174 on the evaluation set, demonstrating good performance

Efficient Training

Utilizes mixed-precision training (native AMP) and a linear learning rate scheduler for high training efficiency

Model Capabilities

English Speech Recognition

Speech-to-Text

Use Cases

Speech Transcription

Meeting Transcription

Automatically transcribes English meeting recordings into text records

Word error rate approximately 31.74%

Podcast Content Transcription

Automatically converts English podcast content into text transcripts

Training Loss	Epoch	Step	Validation Loss	Wer
4.2349	13.51	500	3.1154	1.0
1.5	27.03	1000	0.4627	0.3174

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Base Librispeech Demo Colab

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-base-libriSpeech-demo-colab

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

📄 License