wav2vec2-large-xlsr-bengali開源模型 - 精準實現孟加拉語自動語音識別

首頁

Wav2vec2 Large Xlsr Bengali

由arijitx開發

基於 facebook/wav2vec2-large-xlsr-53 微調的孟加拉語自動語音識別模型，使用 OpenSLR 數據集中的4萬條語音訓練

語音識別其他#孟加拉語語音識別 #低資源語言ASR #XLSR-53微調

下載量 758

發布時間 : 3/2/2022

模型概述

這是一個專門用於孟加拉語自動語音識別(ASR)的模型，能夠將孟加拉語語音轉換為文本。

模型特點

高精度孟加拉語識別

專門針對孟加拉語優化的語音識別模型，在測試集上達到32.45%的詞錯誤率

基於XLSR架構

基於facebook的wav2vec2-large-xlsr-53模型微調，利用了跨語言語音表示學習

大規模訓練數據

使用OpenSLR數據集中約4萬條孟加拉語語音進行訓練

模型能力

孟加拉語語音識別

音頻轉文本

16kHz採樣率語音處理

使用案例

語音轉寫

孟加拉語語音轉錄

將孟加拉語語音內容轉換為文本格式

詞錯誤率32.45%

語音助手

孟加拉語語音交互

為孟加拉語語音助手提供語音識別能力

🚀 Wav2Vec2-Large-XLSR-孟加拉語模型

本項目基於facebook/wav2vec2-large-xlsr-53模型，使用來自包含約19.6萬個語音片段的孟加拉語自動語音識別訓練數據集中的4萬個語音片段子集進行微調。使用從訓練集中預留的約4200個語音片段進行測試，得到字錯率（WER）。使用此模型時，請確保輸入的語音採樣率為16kHz。

屬性	詳情
模型類型	微調後的Wav2Vec2-Large-XLSR孟加拉語模型
訓練數據	來自包含約19.6萬個語音片段的孟加拉語自動語音識別訓練數據集的4萬個語音片段子集
評估指標	字錯率（WER）
標籤	孟加拉語、音頻、自動語音識別、語音
許可證	知識共享署名-相同方式共享4.0國際許可協議（cc-by-sa-4.0）

🚀 快速開始

本模型可直接使用（無需語言模型），具體操作如下：

訓練腳本：train.py
數據準備筆記本：點擊查看
推理筆記本：點擊查看

💻 使用示例

基礎用法

import torch
import torchaudio
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

processor = Wav2Vec2Processor.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
model = Wav2Vec2ForCTC.from_pretrained("arijitx/wav2vec2-large-xlsr-bengali")
# model = model.to("cuda")

resampler = torchaudio.transforms.Resample(TEST_AUDIO_SR, 16_000)
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch)
    speech =  resampler(speech_array).squeeze().numpy()
    return speech

speech_array = speech_file_to_array_fn("test_file.wav")
inputs = processor(speech_array, sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
    logits = model(inputs.input_values).logits

    
predicted_ids = torch.argmax(logits, dim=-1)
preds = processor.batch_decode(predicted_ids)[0]
print(preds.replace("[PAD]",""))