BanglaASR開源孟加拉語自動語音識別模型 - 免費部署，低詞錯率精準轉錄

首頁

Banglaasr

由bangla-speech-processing開發

這是一個基於Whisper small架構的孟加拉語自動語音識別模型，在約400小時的Mozilla Common Voice數據集上微調訓練，詞錯誤率4.58%

語音識別

Transformers

開源協議:MIT #孟加拉語語音識別 #低詞錯誤率(4.58%)#Whisper微調

下載量 782

發布時間 : 6/22/2023

模型概述

該模型專門用於孟加拉語語音識別任務，基於Transformer架構的Whisper模型進行微調

模型特點

高精度識別

在孟加拉語語音識別任務上達到4.58%的詞錯誤率

專門優化

專門針對孟加拉語進行優化的Whisper模型

中等規模

採用244M參數的small變體，平衡性能與資源需求

模型能力

孟加拉語語音轉文本

長音頻處理

即時語音識別

使用案例

語音轉錄

語音記錄轉寫

將孟加拉語語音記錄自動轉換為文本

準確率95.42%

語音助手

為孟加拉語語音助手提供識別能力

教育

語言學習輔助

幫助學習者練習孟加拉語發音和聽力

🚀 孟加拉語自動語音識別模型（Bangla ASR）

本項目是一個基於孟加拉語 Mozilla Common Voice 數據集訓練的自動語音識別（ASR）模型。它通過對 Whisper 模型進行微調，在約 400 小時的孟加拉語語音數據上進行訓練，實現了較低的單詞錯誤率，為孟加拉語語音處理提供了有效的解決方案。

🚀 快速開始

以下是使用該模型進行語音識別的基本步驟：

import os
import librosa
import torch
import torchaudio
import numpy as np

from transformers import WhisperTokenizer
from transformers import WhisperProcessor
from transformers import WhisperFeatureExtractor
from transformers import WhisperForConditionalGeneration

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

mp3_path = "https://huggingface.co/bangla-speech-processing/BanglaASR/resolve/main/mp3/common_voice_bn_31515636.mp3"

model_path = "bangla-speech-processing/BanglaASR"

feature_extractor = WhisperFeatureExtractor.from_pretrained(model_path)
tokenizer = WhisperTokenizer.from_pretrained(model_path)
processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(model_path).to(device)

speech_array, sampling_rate = torchaudio.load(mp3_path, format="mp3")
speech_array = speech_array[0].numpy()
speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
input_features = feature_extractor(speech_array, sampling_rate=16000, return_tensors="pt").input_features

# batch = processor.feature_extractor.pad(input_features, return_tensors="pt")
predicted_ids = model.generate(inputs=input_features.to(device))[0]

transcription = processor.decode(predicted_ids, skip_special_tokens=True)

print(transcription)

💻 使用示例

基礎用法

上述代碼展示瞭如何使用該模型對單個音頻文件進行語音識別。只需指定音頻文件的路徑和模型的路徑，即可完成語音識別並輸出轉錄結果。

高級用法

在實際應用中，你可能需要處理多個音頻文件或進行批量處理。以下是一個簡單的示例，展示如何處理多個音頻文件：

import os
import librosa
import torch
import torchaudio
import numpy as np

from transformers import WhisperTokenizer
from transformers import WhisperProcessor
from transformers import WhisperFeatureExtractor
from transformers import WhisperForConditionalGeneration

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model_path = "bangla-speech-processing/BanglaASR"

feature_extractor = WhisperFeatureExtractor.from_pretrained(model_path)
tokenizer = WhisperTokenizer.from_pretrained(model_path)
processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(model_path).to(device)

# 音頻文件列表
audio_files = [
    "https://huggingface.co/bangla-speech-processing/BanglaASR/resolve/main/mp3/common_voice_bn_31515636.mp3",
    "https://huggingface.co/bangla-speech-processing/BanglaASR/resolve/main/mp3/common_voice_bn_31549899.mp3",
    "https://huggingface.co/bangla-speech-processing/BanglaASR/resolve/main/mp3/common_voice_bn_31617644.mp3"
]

for mp3_path in audio_files:
    speech_array, sampling_rate = torchaudio.load(mp3_path, format="mp3")
    speech_array = speech_array[0].numpy()
    speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
    input_features = feature_extractor(speech_array, sampling_rate=16000, return_tensors="pt").input_features

    predicted_ids = model.generate(inputs=input_features.to(device))[0]
    transcription = processor.decode(predicted_ids, skip_special_tokens=True)

    print(f"音頻文件: {mp3_path}")
    print(f"轉錄結果: {transcription}")
    print("-" * 50)

📚 詳細文檔

數據集

本模型使用了 Mozilla Common Voice 數據集，該數據集包含約 400 小時的音頻數據，其中訓練集有 40k 個樣本，驗證集有 7k 個樣本。所有樣本均為 MP3 格式。如需瞭解更多關於數據集的信息，請點擊此處。

訓練模型信息

模型規模	層數	寬度	頭數	參數數量	僅支持孟加拉語	訓練狀態
tiny	4	384	6	39 M	否	否
base	6	512	8	74 M	否	否
small	12	768	12	244 M	是	是
medium	24	1024	16	769 M	否	否
large	32	1280	20	1550 M	否	否

評估

模型的單詞錯誤率（Word Error Rate）為 4.58%。如需瞭解更多評估信息，請查看GitHub 倉庫。

引用

@misc{BanglaASR ,
  title={Transformer Based Whisper Bangla ASR Model},
  author={Md Saiful Islam},
  howpublished={},
  year={2023}
}

📄 許可證

本項目採用 MIT 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫