Arabic Speech Syllables Recognition Using Wav2vec2 Open-source Model - Precise Recognition of Arabic Speech Syllables

Arabic Speech Syllables Recognition Using Wav2vec2

Developed by IbrahimSalah

This is a Wav2Vec2-based Arabic syllable recognition model capable of identifying syllables in Modern Standard Arabic from speech.

Speech Recognition

Transformers

Arabic#Arabic syllable recognition #Diacritic-aware speech processing #Wav2Vec2 fine-tuning

Downloads 78

Release Time : 7/23/2023

Model Overview

The model is fine-tuned specifically for recognizing syllables from Arabic speech, supporting Modern Standard Arabic with diacritics, and includes a 5-gram language model to improve recognition accuracy.

Model Features

Modern Standard Arabic Support

Optimized specifically for Modern Standard Arabic, supporting syllable recognition with diacritics.

5-gram Language Model

Includes a 5-gram language model to enhance syllable recognition accuracy and fluency.

High Adaptability

Supports audio inputs with different sampling rates and automatically performs resampling.

Model Capabilities

Arabic syllable recognition

Modern Standard Arabic speech processing

Diacritic-aware speech recognition

Use Cases

Speech Processing

Arabic Speech to Syllables

Convert Arabic speech into a sequence of syllables with diacritics

Accurate syllable recognition results

Arabic Speech Analysis

Used for syllable analysis in Arabic phonetics research

Provides detailed syllable-level analysis data

Education

Arabic Learning Assistance

Helps learners analyze syllable structures in Arabic pronunciation

Improves pronunciation accuracy and learning efficiency

🚀 Arabic syllables recognition with tashkeel

This is a fine - tuned wav2vec2 model designed to recognize Arabic syllables from speech, trained on a Modern Standard Arabic dataset. A 5 - gram language model is also available with the model.

🚀 Quick Start

Prerequisites

First, install the necessary libraries:

!pip install datasets transformers
!pip install https://github.com/kpu/kenlm/archive/master.zip pyctcdecode

Load the model and processor

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from transformers import Wav2Vec2ProcessorWithLM
processor = Wav2Vec2ProcessorWithLM.from_pretrained('IbrahimSalah/Syllables_final_Large')
model = Wav2Vec2ForCTC.from_pretrained("IbrahimSalah/Syllables_final_Large")

Prepare the dataset

import pandas as pd
dftest = pd.DataFrame(columns=['audio'])
import datasets
from datasets import Dataset
path ='/content/908-33.wav'
dftest['audio']=[path]  ## audio path
dataset = Dataset.from_pandas(dftest)

Process the audio

import torch
import torchaudio
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["audio"])
    print(sampling_rate)
    resampler = torchaudio.transforms.Resample(sampling_rate, 16_000) # The original data was with 48,000 sampling rate. You can change it according to your input.
    batch["audio"] = resampler(speech_array).squeeze().numpy()
    return batch

Make predictions

import numpy as np
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["audio"], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values).logits
    print(logits.numpy().shape)

transcription = processor.batch_decode(logits.numpy()).text
print("Prediction:",transcription[0])

💻 Usage Examples

Basic Usage

# Prerequisites
!pip install datasets transformers
!pip install https://github.com/kpu/kenlm/archive/master.zip pyctcdecode

# Load the model and processor
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from transformers import Wav2Vec2ProcessorWithLM
processor = Wav2Vec2ProcessorWithLM.from_pretrained('IbrahimSalah/Syllables_final_Large')
model = Wav2Vec2ForCTC.from_pretrained("IbrahimSalah/Syllables_final_Large")

# Prepare the dataset
import pandas as pd
dftest = pd.DataFrame(columns=['audio'])
import datasets
from datasets import Dataset
path ='/content/908-33.wav'
dftest['audio']=[path]  ## audio path
dataset = Dataset.from_pandas(dftest)

# Process the audio
import torch
import torchaudio
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["audio"])
    print(sampling_rate)
    resampler = torchaudio.transforms.Resample(sampling_rate, 16_000) # The original data was with 48,000 sampling rate. You can change it according to your input.
    batch["audio"] = resampler(speech_array).squeeze().numpy()
    return batch

# Make predictions
import numpy as np
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["audio"], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values).logits
    print(logits.numpy().shape)

transcription = processor.batch_decode(logits.numpy()).text
print("Prediction:",transcription[0])

Advanced Usage

You can then convert the syllables to full word using our fine - tuned mT5 model [IbrahimSalah/Arabic_Syllables_to_text_Converter_Using_MT5]

📚 Documentation

Datasets

IbrahimSalah/The_Arabic_News_speech_Corpus_Dataset

Paper DOI

https://doi.org/10.60161/2521-001-001-006

📄 License

Citation

BibTeX:

@article{2024SyllableBasedAS,
  title={Syllable-Based Arabic Speech Recognition Using Wav2Vec},
  author={إبراهيم عبدالعال and مصطفى الشافعي and محمد عبدالواحد},
  journal={مجلة اللغات الحاسوبية والمعالجة الآلية للغة العربية},
  year={2024},
  url={https://api.semanticscholar.org/CorpusID:269151543}
}

Property	Details
Model Type	Fine - tuned wav2vec2 model for Arabic syllable recognition
Training Data	Modern Standard Arabic dataset

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご