Whisper-large-v2-cantonese open-source Cantonese speech recognition model - Free deployment for accurate recognition of Cantonese speech

Whisper Large V2 Cantonese

Developed by Scrya

A Cantonese automatic speech recognition (ASR) model fine-tuned based on OpenAI Whisper Large V2, trained on the Common Voice 11.0 Cantonese dataset with a character error rate (CER) of 6.21%.

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Cantonese speech recognition #Low character error rate #Real-time audio enhancement

Downloads 210

Release Time : 12/19/2022

Model Overview

This is an automatic speech recognition model specifically optimized for Cantonese, improving recognition accuracy through data enhancement techniques, suitable for Cantonese speech-to-text scenarios.

Model Features

Cantonese optimization

Specifically fine-tuned for Cantonese speech characteristics, achieving better recognition accuracy compared to general models.

Data enhancement

Uses audio enhancement techniques such as pitch shifting and time stretching during training to improve model robustness.

Low error rate

Achieves a character error rate (CER) of 6.21% on the Common Voice Cantonese test set.

Model Capabilities

Cantonese speech recognition

Speech-to-text

Audio transcription

Use Cases

Speech transcription

Cantonese meeting minutes

Automatically converts Cantonese meeting recordings into text transcripts.

Accuracy approximately 93.79% (CER 6.21%).

Media subtitle generation

Automatically generates subtitles for Cantonese video content.

Voice assistant

Cantonese voice command recognition

Used for smart home or voice assistant systems supporting Cantonese.

Training Loss	Epoch	Step	Validation Loss	Cer
0.1126	1.21	200	0.1666	7.3103
0.0467	2.42	400	0.1610	6.9419
0.0217	3.63	600	0.1621	6.3874
0.008	4.85	800	0.1699	6.3064
0.0023	6.06	1000	0.1828	6.2133

Property	Details
Model Type	Whisper Large V2 - Cantonese - Augmented
Training Data	mozilla - foundation/common_voice_11_0 (train+validation)
Evaluation Data	mozilla - foundation/common_voice_11_0 (test)

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Whisper Large V2 Cantonese

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Whisper Large V2 - Cantonese - Augmented

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

📄 License

📦 Model Information