Wav2vec2-large-xlsr-53-cantonese Open-source Speech Recognition Model

Wav2vec2 Large Xlsr 53 Cantonese

Developed by CAiRE

A Cantonese fine-tuned speech recognition model based on facebook/wav2vec2-large-xlsr-53 using the Common Voice corpus version 8.0

Speech Recognition

Transformers

OtherOpen Source License:Apache-2.0 #Cantonese speech recognition #Low character error rate #Common Voice fine-tuning

Downloads 1,214

Release Time : 4/9/2022

Model Overview

This is an automatic speech recognition (ASR) model specifically optimized for Cantonese, based on the Wav2Vec2 architecture, suitable for Cantonese speech-to-text tasks.

Model Features

Cantonese Optimization

Specially fine-tuned for Cantonese speech, providing more accurate Cantonese recognition capabilities

Based on Wav2Vec2 Architecture

Utilizes the advanced Wav2Vec2-Large-XLSR-53 architecture with powerful speech feature extraction capabilities

No Language Model Required

Can be used directly without additional language model support

Model Capabilities

Cantonese speech recognition

Audio-to-text conversion

Automatic speech transcription

Use Cases

Speech Transcription

Cantonese Meeting Minutes

Automatically transcribe Cantonese meeting recordings into text records

Character error rate 18.55%

Cantonese Media Subtitle Generation

Automatically generate subtitles for Cantonese video content

Voice Assistants

Cantonese Voice Command Recognition

Used for Cantonese voice assistant command recognition systems

🚀 Wav2Vec2-Large-XLSR-53-Cantonese

This model is fine-tuned from facebook/wav2vec2-large-xlsr-53 on Cantonese, aiming to provide high - quality automatic speech recognition for Cantonese.

Property	Details
Language	Yue
Datasets	Common Voice
Metrics	CER
Tags	Audio, Automatic Speech Recognition, Speech, XLSR - Fine - Tuning - Week
License	Apache - 2.0

Model Index

Name: Wav2Vec2 - Large - XLSR - 53 - Cantonese
Results:
- Task:
  - Name: Speech Recognition
  - Type: Automatic Speech Recognition
- Dataset:
  - Name: Common Voice zh - HK
  - Type: Common Voice
  - Args: zh - HK
- Metrics:
  - Name: Test CER
  - Type: CER
  - Value: [18.55%]

🚀 Quick Start

This model is a fine - tuned version of facebook/wav2vec2-large-xlsr-53 on Cantonese, using the Common Voice Corpus 8.0. When using this model, ensure that your speech input is sampled at 16kHz. The validated train and dev sets from Common Voice were used for training. The training script can be found at https://github.com/holylovenia/wav2vec2-pretraining.

💻 Usage Examples

Basic Usage

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "zh-HK", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("CAiRE/wav2vec2-large-xlsr-53-cantonese")
model = Wav2Vec2ForCTC.from_pretrained("CAiRE/wav2vec2-large-xlsr-53-cantonese")


# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  resampler = torchaudio.transforms.Resample(sampling_rate, 16_000)
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
  logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

Advanced Usage

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

test_dataset = load_dataset("common_voice", "zh-HK", split="test")
wer = load_metric("cer")

processor = Wav2Vec2Processor.from_pretrained("CAiRE/wav2vec2-large-xlsr-53-cantonese")
model = Wav2Vec2ForCTC.from_pretrained("CAiRE/wav2vec2-large-xlsr-53-cantonese") 
model.to("cuda")

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\'\”\�]'


# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  resampler = torchaudio.transforms.Resample(sampling_rate, 16_000)
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
  inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

  with torch.no_grad():
    logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

  pred_ids = torch.argmax(logits, dim=-1)
  batch["pred_strings"] = processor.batch_decode(pred_ids)
  return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

print("CER: {:2f}".format(100 * cer.compute(predictions=result["pred_strings"], references=result["sentence"])))

Test Result: CER: 18.55 %

📄 License

This model is licensed under the Apache - 2.0 license.

📚 Citation

If you use our code/model, please cite us:

@inproceedings{lovenia2022ascend,
  title={ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation},
  author={Lovenia, Holy and Cahyawijaya, Samuel and Winata, Genta Indra and Xu, Peng and Yan, Xu and Liu, Zihan and Frieske, Rita and Yu, Tiezheng and Dai, Wenliang and Barezi, Elham J and others},
  booktitle={Proceedings of the 13th Language Resources and Evaluation Conference (LREC)},
  year={2022}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご