wav2vec2-base_toy_train_data_masked_audio Open-source Speech Recognition Model

Wav2vec2 Base Toy Train Data Masked Audio

Developed by scasutt

A speech recognition model fine-tuned from facebook/wav2vec2-base, trained on toy dataset, supporting audio masking tasks

Speech Recognition

Transformers

Open Source License:Apache-2.0 #Speech Recognition #Fine-tuned Model #Low-resource Training

Downloads 22

Release Time : 3/26/2022

Model Overview

This model is a variant based on the wav2vec2-base architecture, specifically optimized for audio masking tasks, suitable for speech recognition and audio feature extraction scenarios

Model Features

Audio Masking Capability

Specifically optimized for audio masking tasks, capable of effectively processing masked audio inputs

Lightweight Fine-tuning

Fine-tuned based on the pre-trained wav2vec2-base model, suitable for small-scale datasets

Progressive Performance Improvement

Word error rate gradually decreased from 1.0 to 0.7340 during training, showing a good learning curve

Model Capabilities

Speech Recognition

Audio Feature Extraction

Masked Audio Prediction

Use Cases

Speech Processing

Noisy Environment Speech Recognition

Performing speech recognition when audio is partially masked or interfered by noise

Word error rate 0.7340

Audio Data Augmentation

Used to generate training data for audio masking tasks

Training Loss	Epoch	Step	Validation Loss	Wer
3.1287	2.1	250	3.4581	1.0
3.0259	4.2	500	2.8099	0.9999
1.4881	6.3	750	1.2929	0.8950
0.9665	8.4	1000	1.1675	0.8346
0.7614	10.5	1250	1.1388	0.8003
0.5858	12.6	1500	1.1510	0.7672
0.5005	14.7	1750	1.1606	0.7532
0.4486	16.8	2000	1.1571	0.7427
0.4224	18.9	2250	1.1950	0.7340

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Base Toy Train Data Masked Audio

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-base_toy_train_data_masked_audio

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

🔧 Technical Details

Training procedure

Training hyperparameters

Training results

Framework versions

📄 License