Open-source model: ai-light-dance_singing_ft_pretrain_wav2vec2-large-lv60 - An automatic speech tool for accurate singing voice recognition

Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60

Developed by gary109

This model is an automatic speech recognition (ASR) model based on the wav2vec2-large-lv60 architecture, fine-tuned on the GARY109/AI_LIGHT_DANCE - ONSET-SINGING dataset, primarily used for singing voice recognition tasks.

Speech Recognition

Transformers

#Singing voice recognition #High-precision speech transcription #Music scenario optimization

Downloads 22

Release Time : 6/11/2022

Model Overview

This is an automatic speech recognition model focused on singing voice recognition, fine-tuned based on the wav2vec2-large-lv60 architecture, suitable for music-related speech recognition scenarios.

Model Features

Singing voice recognition optimization

Specially fine-tuned for singing voice recognition tasks, potentially outperforming general speech recognition models in music scenarios.

Based on wav2vec2 architecture

Utilizes Facebook's wav2vec2-large-lv60 pre-trained model as the foundation, featuring powerful speech feature extraction capabilities.

Low-resource adaptation

Adapted to specific domains through fine-tuning, suitable for domain adaptation with limited data.

Model Capabilities

Singing voice recognition

Automatic speech recognition

Music content transcription

Use Cases

Music technology

Song lyrics transcription

Automatically transcribe sung songs into written lyrics

Word Error Rate (WER) approximately 0.92

Music education assistance

Help music learners identify and correct singing pronunciation

Training Loss	Epoch	Step	Validation Loss	Wer
1.6096	1.0	552	1.7650	1.0053
1.6294	2.0	1104	1.6735	0.9591
1.5509	3.0	1656	1.6170	0.9852
1.5175	4.0	2208	1.6312	0.9626
1.5267	5.0	2760	1.5032	0.9249
1.4055	6.0	3312	1.6107	0.9438
1.3267	7.0	3864	1.5386	0.9378
1.312	8.0	4416	1.4961	0.9206
1.3245	9.0	4968	1.5158	0.9182
1.2885	10.0	5520	1.5296	0.9230

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 ai-light-dance_singing_ft_pretrain_wav2vec2-large-lv60

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions