Wav2Vec2-XLS-R-300M Phoneme Open-source Speech Recognition Model - Accurately Complete Phoneme Recognition Tasks

Home

Wav2vec2 Xls R 300m Phoneme

Developed by vitouphy

A fine-tuned speech recognition model based on facebook/wav2vec2-xls-r-300m, specialized in phoneme recognition tasks

Speech Recognition

Transformers

Open Source License:Apache-2.0 #Speech to Phoneme #Low CER Recognition #XLS-R Architecture

Downloads 12.26k

Release Time : 5/19/2022

Model Overview

This model is a fine-tuned version of wav2vec2-xls-r-300m, specifically designed for phoneme recognition tasks. It achieved a character error rate (CER) of 0.1332 on the evaluation set.

Model Features

Efficient Phoneme Recognition

Optimized for phoneme recognition tasks, achieving a low character error rate on the evaluation set

Based on Large-scale Pretrained Model

Fine-tuned from the wav2vec2-xls-r-300m model, inheriting its powerful speech feature extraction capabilities

Optimized Training Configuration

Utilizes carefully tuned training parameters, including learning rate scheduling and gradient accumulation strategies

Model Capabilities

Speech Recognition

Phoneme Recognition

Audio Feature Extraction

Use Cases

Speech Processing

Speech to Phoneme

Convert speech signals into phoneme sequences

Character error rate 0.1332

Speech Analysis

Used for phoneme analysis in linguistic research

Training Loss	Epoch	Step	Validation Loss	Cer
3.4324	1.32	1000	3.3693	0.9091
2.1751	2.65	2000	1.1382	0.2397
1.3986	3.97	3000	0.4886	0.1452
1.2285	5.3	4000	0.3842	0.1351
1.142	6.62	5000	0.3505	0.1349
1.1075	7.95	6000	0.3323	0.1317
1.0867	9.27	7000	0.3265	0.1315

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Xls R 300m Phoneme

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-xls-r-300m-phoneme

🚀 Quick Start

🔧 Technical Details

Training hyperparameters

Training results

Framework versions

📄 License