wav2vec2-large-xlsr-53-persian開源語音識別模型

首頁

Wav2vec2 Large Xlsr 53 Persian

由jonatasgrosman開發

針對波斯語優化的XLSR-53大模型語音識別系統，基於facebook/wav2vec2-large-xlsr-53架構微調

語音識別其他開源協議:Apache-2.0 #波斯語語音識別 #XLSR-53大模型 #低字符錯誤率

下載量 257.76k

發布時間 : 3/2/2022

模型概述

本模型是基於XLSR-53架構優化的波斯語語音識別系統，使用通用語音6.1波斯語數據集訓練，適用於波斯語語音轉文本任務。

模型特點

高性能波斯語識別

在通用語音波斯語測試集上達到30.12%的詞錯誤率和7.37%的字錯誤率

基於XLSR-53架構

利用大規模自監督預訓練的XLSR-53模型進行微調

16kHz採樣率支持

專為16kHz採樣率的語音輸入優化

模型能力

波斯語語音識別

語音轉文本

音頻轉錄

使用案例

語音轉錄

波斯語語音轉文本

將波斯語語音內容轉換為文本格式

在通用語音測試集上達到30.12%的詞錯誤率

語音助手

波斯語語音指令識別

用於波斯語語音助手的語音指令理解

🚀 用於波斯語語音識別的微調XLSR - 53大模型

本模型基於 facebook/wav2vec2-large-xlsr-53，使用 Common Voice 6.1 的訓練集和驗證集針對波斯語進行了微調。使用此模型時，請確保語音輸入的採樣率為16kHz。

本模型的微調得益於 OVHcloud 慷慨提供的GPU計算資源。訓練腳本可在以下鏈接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速開始

本模型可直接使用（無需語言模型），以下將介紹具體使用方法。

✨ 主要特性

數據集：基於 Common Voice 數據集進行訓練。
評估指標：使用字錯誤率（WER）和字符錯誤率（CER）進行評估。
應用場景：適用於波斯語的自動語音識別任務。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫的安裝說明，如 huggingsound、torch、librosa、datasets、transformers 等。

💻 使用示例

基礎用法

使用 HuggingSound 庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-persian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是預測結果示例：

參考文本	預測文本
از مهمونداری کنار بکشم	از مهمانداری کنار بکشم
برو از مهرداد بپرس.	برو از ماقدعاد به پرس
خب ، تو چیكار می كنی؟	خوب تو چیکار می کنی
مسقط پایتخت عمان در عربی به معنای محل سقوط است	مسقط پایتخت عمان در عربی به بعنای محل سقوط است
آه، نه اصلاُ!	اهنه اصلا
توانست	توانست
قصیده فن شعر میگوید ای دوستان	قصیده فن شعر میگوید ایدوستون
دو استایل متفاوت دارین	دوبوست داریل و متفاوت بری
دو روز قبل از کریسمس ؟	اون مفتود پش پشش
ساعت های کاری چیست؟	این توری که موشیکل خب

📚 詳細文檔

評估方法

本模型可在 Common Voice 的波斯語測試數據上進行評估，以下是評估代碼：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

測試結果

以下表格展示了本模型及其他模型的字錯誤率（WER）和字符錯誤率（CER）。評估腳本於2021年4月22日運行。請注意，表格中的結果可能與其他評估腳本的結果有所不同。

模型	字錯誤率（WER）	字符錯誤率（CER）
jonatasgrosman/wav2vec2-large-xlsr-53-persian	30.12%	7.37%
m3hrdadfi/wav2vec2-large-xlsr-persian-v2	33.85%	8.79%
m3hrdadfi/wav2vec2-large-xlsr-persian	34.37%	8.98%

📄 許可證

本模型使用 Apache 2.0 許可證。

📚 引用格式

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-persian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {P}ersian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-persian}},
  year={2021}
}