Sharif-wav2vec2開源語音模型 - 免費部署助力波斯語自動語音識別

首頁

Sharif Wav2vec2

由SLPL開發

Sharif Wav2vec2針對波斯語的微調版本，基於Common Voice波斯語樣本訓練，支持自動語音識別任務。

語音識別

Transformers

其他開源協議:MIT #波斯語語音識別 #低WER(6.0)#kenlm增強

下載量 88

發布時間 : 6/25/2022

模型概述

該模型是基於Wav2vec2架構的自動語音識別(ASR)模型，專門針對波斯語進行了微調。它使用了108小時的Common Voice波斯語樣本進行訓練，並集成了5gram語言模型以提高識別準確率。

模型特點

波斯語優化

專門針對波斯語進行微調，在Common Voice波斯語測試集上達到6.0%的WER

語言模型集成

集成了使用kenlm訓練的5gram語言模型，提高了在線ASR的準確率

高效處理

支持16kHz採樣率的語音輸入，適合即時語音識別應用

模型能力

波斯語語音識別

音頻轉錄

語音轉文本

使用案例

語音轉錄

波斯語語音轉文字

將波斯語語音內容轉換為文字

在Common Voice測試集上達到6%的詞錯誤率(WER)

語音助手

波斯語語音指令識別

用於波斯語語音助手或智能家居系統的語音指令識別

🚀 Sharif-wav2vec2

Sharif-wav2vec2 是針對波斯語微調後的版本。基礎模型經過了微調，使用了 Commonvoice 中時長為 108 小時、採樣率為 16kHz 的波斯語樣本。之後，我們使用 kenlm 工具包訓練了一個 5-gram 語言模型，並將其用於處理器中，這提高了我們在線自動語音識別（ASR）的準確率。

🚀 快速開始

在使用該模型時，請確保語音輸入的採樣率為 16kHz。在使用之前，你可能需要安裝以下依賴項：

pip install pyctcdecode
pip install pypi-kenlm

💻 使用示例

基礎用法

你可以使用 Hugging Face 上的託管推理 API 進行測試（提供了來自 Common Voice 的示例）。轉錄給定語音可能需要一些時間；或者你可以使用以下代碼在本地運行：

import tensorflow
import torchaudio
import torch
import numpy as np

from transformers import AutoProcessor, AutoModelForCTC

processor = AutoProcessor.from_pretrained("SLPL/Sharif-wav2vec2")
model = AutoModelForCTC.from_pretrained("SLPL/Sharif-wav2vec2")

speech_array, sampling_rate = torchaudio.load("path/to/your.wav")
speech_array = speech_array.squeeze().numpy()

features = processor(
    speech_array,
    sampling_rate=processor.feature_extractor.sampling_rate,
    return_tensors="pt",
    padding=True)

with torch.no_grad():
    logits = model(
        features.input_values,
        attention_mask=features.attention_mask).logits
    prediction = processor.batch_decode(logits.numpy()).text

print(prediction[0])
# تست

評估

你可以使用以下代碼進行評估。請確保你的數據集採用以下形式，以避免衝突：

path	reference
path/to/audio_file.wav	"TRANSCRIPTION"

同時，請確保在運行之前安裝了 pip install jiwer。

import tensorflow
import torchaudio
import torch
import librosa
from datasets import load_dataset,load_metric
import numpy as np
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from transformers import Wav2Vec2ProcessorWithLM

model = Wav2Vec2ForCTC.from_pretrained("SLPL/Sharif-wav2vec2") 
processor = Wav2Vec2ProcessorWithLM.from_pretrained("SLPL/Sharif-wav2vec2") 

def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    speech_array = speech_array.squeeze().numpy()
    speech_array = librosa.resample(
        np.asarray(speech_array),
        sampling_rate,
        processor.feature_extractor.sampling_rate)
    batch["speech"] = speech_array
    return batch

def predict(batch):
    features = processor(
        batch["speech"], 
        sampling_rate=processor.feature_extractor.sampling_rate, 
        return_tensors="pt", 
        padding=True
    )

    with torch.no_grad():
        logits = model(
            features.input_values,
            attention_mask=features.attention_mask).logits
    batch["prediction"] = processor.batch_decode(logits.numpy()).text
    return batch
    
dataset = load_dataset(
    "csv",
    data_files={"test":"dataset.eval.csv"},
    delimiter=",")["test"]
dataset = dataset.map(speech_file_to_array_fn)

result = dataset.map(predict, batched=True, batch_size=4)
wer = load_metric("wer")

print("WER: {:.2f}".format(wer.compute(
    predictions=result["prediction"],
    references=result["reference"])))