wav2vec2-large-xlsr-53-arabic開源語音識別模型 - 免費精準識別阿拉伯語語音

首頁

Wav2vec2 Large Xlsr 53 Arabic

由jonatasgrosman開發

基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型，在Common Voice和阿拉伯語語音語料庫上訓練

語音識別阿拉伯語開源協議:Apache-2.0 #阿拉伯語語音識別 #XLSR-53微調 #低詞錯誤率

下載量 2.3M

發布時間 : 3/2/2022

模型概述

針對阿拉伯語優化的自動語音識別(ASR)模型，支持16kHz採樣率的語音輸入轉換為文本

模型特點

高性能阿拉伯語識別

在Common Voice阿拉伯語測試集上達到39.59% WER和18.18% CER，優於同類阿拉伯語ASR模型

多數據集訓練

結合Common Voice 6.1和阿拉伯語語音語料庫進行訓練，提高模型泛化能力

即用型模型

無需額外語言模型即可直接使用，簡化部署流程

模型能力

阿拉伯語語音識別

16kHz音頻處理

長語音轉錄

使用案例

語音轉文字

語音備忘錄轉錄

將阿拉伯語語音備忘錄轉換為可搜索的文本

準確率約80%（基於CER推斷）

客服對話記錄

自動記錄阿拉伯語客服通話內容

輔助技術

聽力障礙輔助

為聽力障礙者提供即時字幕

🚀 針對阿拉伯語語音識別微調的XLSR - 53大模型

本項目微調了 facebook/wav2vec2-large-xlsr-53 模型，用於阿拉伯語語音識別。使用了 Common Voice 6.1 和 Arabic Speech Corpus 的訓練集和驗證集進行微調。使用該模型時，請確保語音輸入的採樣率為16kHz。

此模型的微調得益於 OVHcloud 慷慨提供的GPU算力支持😊。訓練腳本可在以下鏈接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速開始

本模型可直接使用（無需語言模型），以下是使用示例。

✨ 主要特性

數據集：使用了Common Voice和Arabic Speech Corpus數據集進行訓練。
評估指標：使用了字錯誤率（WER）和字符錯誤率（CER）進行評估。
許可證：採用Apache - 2.0許可證。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

使用 HuggingSound 庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ar"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是參考與預測結果對比：

參考	預測
ألديك قلم ؟	ألديك قلم
ليست هناك مسافة على هذه الأرض أبعد من يوم أمس.	ليست نالك مسافة على هذه الأرض أبعد من يوم الأمس م
إنك تكبر المشكلة.	إنك تكبر المشكلة
يرغب أن يلتقي بك.	يرغب أن يلتقي بك
إنهم لا يعرفون لماذا حتى.	إنهم لا يعرفون لماذا حتى
سيسعدني مساعدتك أي وقت تحب.	سيسئدنيمساعدتك أي وقد تحب
أَحَبُّ نظريّة علمية إليّ هي أن حلقات زحل مكونة بالكامل من الأمتعة المفقودة.	أحب نظرية علمية إلي هي أن حل قتزح المكوينا بالكامل من الأمت عن المفقودة
سأشتري له قلماً.	سأشتري له قلما
أين المشكلة ؟	أين المشكل
وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْأَرْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ	ولله يسجد ما في السماوات وما في الأرض من دابة والملائكة وهم لا يستكبرون

📚 詳細文檔

評估

該模型可在Common Voice的阿拉伯語測試數據上進行如下評估：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ar"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                  "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                  "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                  "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                  "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "'", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

測試結果：以下表格展示了該模型的字錯誤率（WER）和字符錯誤率（CER）。我在2021 - 05 - 14也在其他模型上運行了上述評估腳本。請注意，下表可能顯示與已報告結果不同的結果，這可能是由於使用的其他評估腳本的某些特殊性造成的。

模型	字錯誤率（WER）	字符錯誤率（CER）
jonatasgrosman/wav2vec2-large-xlsr-53-arabic	39.59%	18.18%
bakrianoo/sinai-voice-ar-stt	45.30%	21.84%
othrif/wav2vec2-large-xlsr-arabic	45.93%	20.51%
kmfoda/wav2vec2-large-xlsr-arabic	54.14%	26.07%
mohammed/wav2vec2-large-xlsr-arabic	56.11%	26.79%
anas/wav2vec2-large-xlsr-arabic	62.02%	27.09%
elgeish/wav2vec2-large-xlsr-53-arabic	100.00%	100.56%

📄 許可證

本項目採用Apache - 2.0許可證。

🔧 技術細節

文檔未提及技術實現細節，暫不展示。

📚 引用

如果您想引用此模型，可以使用以下內容：

@misc{grosman2021xlsr53-large-arabic,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {A}rabic},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-arabic}},
  year={2021}
}