Arabic_speech_Syllables_recognition_Using_Wav2vec2開源模型

首頁

Arabic Speech Syllables Recognition Using Wav2vec2

由IbrahimSalah開發

這是一個基於wav2vec2的阿拉伯語音節識別模型，能夠從語音中識別現代標準阿拉伯語的音節。

語音識別

Transformers

阿拉伯語#阿拉伯語音節識別 #帶標音符號語音處理 #Wav2Vec2微調

下載量 78

發布時間 : 7/23/2023

模型概述

該模型經過微調，專門用於從阿拉伯語語音中識別音節，支持帶標音符號的現代標準阿拉伯語，並附帶5-gram語言模型以提高識別準確率。

模型特點

現代標準阿拉伯語支持

專門針對現代標準阿拉伯語進行優化，支持帶標音符號的音節識別。

5-gram語言模型

附帶5-gram語言模型，提高音節識別的準確性和流暢度。

高適應性

支持不同採樣率的音頻輸入，可自動進行重採樣處理。

模型能力

阿拉伯語音節識別

現代標準阿拉伯語語音處理

帶標音符號的語音識別

使用案例

語音處理

阿拉伯語語音轉音節

將阿拉伯語語音轉換為帶標音符號的音節序列

準確的音節識別結果

阿拉伯語語音分析

用於阿拉伯語語音學研究中的音節分析

提供詳細的音節級別分析數據

教育

阿拉伯語學習輔助

幫助學習者分析阿拉伯語發音中的音節結構

提高發音準確性和學習效率

🚀 阿拉伯語帶音符音節識別

本項目是一個經過微調的wav2vec2模型，用於從語音中識別阿拉伯語音節。該模型在現代標準阿拉伯語數據集上進行訓練，並且還配備了5-gram語言模型。

🚀 快速開始

若要嘗試使用該模型，可按以下步驟操作：

安裝依賴

!pip install datasets transformers
!pip install https://github.com/kpu/kenlm/archive/master.zip pyctcdecode

加載模型和處理器

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from transformers import Wav2Vec2ProcessorWithLM
processor = Wav2Vec2ProcessorWithLM.from_pretrained('IbrahimSalah/Syllables_final_Large')
model = Wav2Vec2ForCTC.from_pretrained("IbrahimSalah/Syllables_final_Large")

準備數據集

import pandas as pd
dftest = pd.DataFrame(columns=['audio'])
import datasets
from datasets import Dataset
path ='/content/908-33.wav'
dftest['audio']=[path]  ## audio path
dataset = Dataset.from_pandas(dftest)

音頻處理函數

import torch
import torchaudio
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["audio"])
    print(sampling_rate)
    resampler = torchaudio.transforms.Resample(sampling_rate, 16_000) # The original data was with 48,000 sampling rate. You can change it according to your input.
    batch["audio"] = resampler(speech_array).squeeze().numpy()
    return batch

進行預測

import numpy as np
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["audio"], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values).logits
    print(logits.numpy().shape)

transcription = processor.batch_decode(logits.numpy()).text
print("Prediction:",transcription[0])

音節轉單詞

你可以使用我們微調的mT5模型[IbrahimSalah/Arabic_Syllables_to_text_Converter_Using_MT5]將識別出的音節轉換為完整的單詞。

📦 數據集與標籤

屬性	詳情
數據集	IbrahimSalah/The_Arabic_News_speech_Corpus_Dataset
語言	阿拉伯語
標籤	阿拉伯語、現代標準阿拉伯語、語音、音節、Wav2vec、自動語音識別

📄 論文引用

論文DOI：https://doi.org/10.60161/2521-001-001-006

BibTeX:

@article{2024SyllableBasedAS,
  title={Syllable-Based Arabic Speech Recognition Using Wav2Vec},
  author={إبراهيم عبدالعال and مصطفى الشافعي and محمد عبدالواحد},
  journal={مجلة اللغات الحاسوبية والمعالجة الآلية للغة العربية},
  year={2024},
  url={https://api.semanticscholar.org/CorpusID:269151543}
}