wav2vec2-large-xlsr-mr-3開源模型 - 支持馬拉地語自動語音識別免費使用

首頁

Wav2vec2 Large Xlsr Mr 3

由gchhablani開發

這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的馬拉地語自動語音識別(ASR)模型，使用OpenSLR和InterSpeech 2021數據集訓練。

語音識別其他開源協議:Apache-2.0 #馬拉地語語音識別 #XLSR微調 #低資源語言ASR

下載量 22

發布時間 : 3/2/2022

模型概述

該模型專門用於馬拉地語的語音識別任務，支持16kHz採樣率的音頻輸入。

模型特點

多數據集訓練

結合了OpenSLR和InterSpeech 2021兩個數據集進行訓練，提高了模型的泛化能力

無需語言模型

可以直接使用，不需要額外的語言模型支持

女性語音優化

由於OpenSLR數據僅包含女性聲音，模型對女性語音識別有更好表現

模型能力

馬拉地語語音識別

16kHz音頻處理

使用案例

語音轉錄

馬拉地語語音轉文字

將馬拉地語語音轉換為文字內容

測試WER為19.05%

語音助手

馬拉地語語音指令識別

用於支持馬拉地語的語音助手系統

🚀 Wav2Vec2-Large-XLSR-53-Marathi

本項目基於 OpenSLR SLR64 數據集和 InterSpeech 2021 馬拉地語數據集，對 facebook/wav2vec2-large-xlsr-53 進行了微調。需要注意的是，OpenSLR 數據集中僅包含女性語音。在將該模型用於您的任務之前，請牢記這一點。使用此模型時，請確保您的語音輸入採樣率為 16kHz。

🚀 快速開始

本模型可以直接使用（無需語言模型），假設您有一個包含馬拉地語 text 和 audio_path 字段的數據集，可按如下步驟操作。

💻 使用示例

基礎用法

import torch
import torchaudio
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

# test_data = #TODO: WRITE YOUR CODE TO LOAD THE TEST DATASET. For sample see the Colab link in Training Section.

processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["audio_path"])
    batch["speech"] = librosa.resample(speech_array[0].numpy(), sampling_rate, 16_000) # sampling_rate can vary
    return batch

test_data= test_data.map(speech_file_to_array_fn)
inputs = processor(test_data["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_data["text"][:2])

📚 詳細文檔

評估

可以在 OpenSLR 上 10% 的馬拉地語數據上按如下方式評估該模型。

import torch
import torchaudio
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

# test_data = #TODO: WRITE YOUR CODE TO LOAD THE TEST DATASET. For sample see the Colab link in Training Section.

wer = load_metric("wer")
processor = Wav2Vec2Processor.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
model = Wav2Vec2ForCTC.from_pretrained("gchhablani/wav2vec2-large-xlsr-mr-3")
model.to("cuda")

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\–\…]'


# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    batch["text"] = re.sub(chars_to_ignore_regex, '', batch["text"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["audio_path"])
    batch["speech"] = librosa.resample(speech_array[0].numpy(), sampling_rate, 16_000)
    return batch

test_data= test_data.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
        pred_ids = torch.argmax(logits, dim=-1)
        batch["pred_strings"] = processor.batch_decode(pred_ids)
        return batch

result = test_data.map(evaluate, batched=True, batch_size=8)
print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["text"])))

測試結果：19.05 %（157 + 157 個示例）

OpenSLR 測試集測試結果：14.15 %（157 個示例）

InterSpeech 測試集測試結果：27.14 %（157 個示例）

訓練

訓練使用了 OpenSLR 馬拉地語數據集的 1412 個示例和 InterSpeech 2021 馬拉地語 ASR 數據集的 1412 個示例。測試時，每個數據集各使用了 157 個示例。

用於訓練和評估的 Colab 筆記本可在此處找到。

📄 許可證

本項目採用 Apache-2.0 許可證。

📦 模型信息

屬性	詳情
模型類型	基於微調的 Wav2Vec2-Large-XLSR-53 的馬拉地語語音識別模型
訓練數據	OpenSLR SLR64 數據集、InterSpeech 2021 馬拉地語數據集
評估指標	詞錯誤率（WER）
標籤	音頻、自動語音識別、語音、XLSR 微調周