Sharif-wav2vec2开源语音模型 - 免费部署助力波斯语自动语音识别

首页

Sharif Wav2vec2

由 SLPL 开发

Sharif Wav2vec2针对波斯语的微调版本，基于Common Voice波斯语样本训练，支持自动语音识别任务。

语音识别

Transformers

其他开源协议:MIT #波斯语语音识别 #低WER(6.0)#kenlm增强

下载量 88

发布时间 : 6/25/2022

模型简介

该模型是基于Wav2vec2架构的自动语音识别(ASR)模型，专门针对波斯语进行了微调。它使用了108小时的Common Voice波斯语样本进行训练，并集成了5gram语言模型以提高识别准确率。

模型特点

波斯语优化

专门针对波斯语进行微调，在Common Voice波斯语测试集上达到6.0%的WER

语言模型集成

集成了使用kenlm训练的5gram语言模型，提高了在线ASR的准确率

高效处理

支持16kHz采样率的语音输入，适合实时语音识别应用

模型能力

波斯语语音识别

音频转录

语音转文本

使用案例

语音转录

波斯语语音转文字

将波斯语语音内容转换为文字

在Common Voice测试集上达到6%的词错误率(WER)

语音助手

波斯语语音指令识别

用于波斯语语音助手或智能家居系统的语音指令识别

🚀 Sharif-wav2vec2

Sharif-wav2vec2 是针对波斯语微调后的版本。基础模型经过了微调，使用了 Commonvoice 中时长为 108 小时、采样率为 16kHz 的波斯语样本。之后，我们使用 kenlm 工具包训练了一个 5-gram 语言模型，并将其用于处理器中，这提高了我们在线自动语音识别（ASR）的准确率。

🚀 快速开始

在使用该模型时，请确保语音输入的采样率为 16kHz。在使用之前，你可能需要安装以下依赖项：

pip install pyctcdecode
pip install pypi-kenlm

💻 使用示例

基础用法

你可以使用 Hugging Face 上的托管推理 API 进行测试（提供了来自 Common Voice 的示例）。转录给定语音可能需要一些时间；或者你可以使用以下代码在本地运行：

import tensorflow
import torchaudio
import torch
import numpy as np

from transformers import AutoProcessor, AutoModelForCTC

processor = AutoProcessor.from_pretrained("SLPL/Sharif-wav2vec2")
model = AutoModelForCTC.from_pretrained("SLPL/Sharif-wav2vec2")

speech_array, sampling_rate = torchaudio.load("path/to/your.wav")
speech_array = speech_array.squeeze().numpy()

features = processor(
    speech_array,
    sampling_rate=processor.feature_extractor.sampling_rate,
    return_tensors="pt",
    padding=True)

with torch.no_grad():
    logits = model(
        features.input_values,
        attention_mask=features.attention_mask).logits
    prediction = processor.batch_decode(logits.numpy()).text

print(prediction[0])
# تست

评估

你可以使用以下代码进行评估。请确保你的数据集采用以下形式，以避免冲突：

path	reference
path/to/audio_file.wav	"TRANSCRIPTION"

同时，请确保在运行之前安装了 pip install jiwer。

import tensorflow
import torchaudio
import torch
import librosa
from datasets import load_dataset,load_metric
import numpy as np
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from transformers import Wav2Vec2ProcessorWithLM

model = Wav2Vec2ForCTC.from_pretrained("SLPL/Sharif-wav2vec2") 
processor = Wav2Vec2ProcessorWithLM.from_pretrained("SLPL/Sharif-wav2vec2") 

def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    speech_array = speech_array.squeeze().numpy()
    speech_array = librosa.resample(
        np.asarray(speech_array),
        sampling_rate,
        processor.feature_extractor.sampling_rate)
    batch["speech"] = speech_array
    return batch

def predict(batch):
    features = processor(
        batch["speech"], 
        sampling_rate=processor.feature_extractor.sampling_rate, 
        return_tensors="pt", 
        padding=True
    )

    with torch.no_grad():
        logits = model(
            features.input_values,
            attention_mask=features.attention_mask).logits
    batch["prediction"] = processor.batch_decode(logits.numpy()).text
    return batch
    
dataset = load_dataset(
    "csv",
    data_files={"test":"dataset.eval.csv"},
    delimiter=",")["test"]
dataset = dataset.map(speech_file_to_array_fn)

result = dataset.map(predict, batched=True, batch_size=4)
wer = load_metric("wer")

print("WER: {:.2f}".format(wer.compute(
    predictions=result["prediction"],
    references=result["reference"])))