🚀 バングラ語自動音声認識モデル (Bangla ASR)
このモデルは、バングラ語のモズィラ・コモン・ボイス・データセットを用いて学習された自動音声認識モデルです。Whisperモデルをバングラ語のデータセットでファインチューニングしています。
🚀 クイックスタート
このモデルを使用するには、以下のコードを参考にしてください。
基本的な使用法
import os
import librosa
import torch
import torchaudio
import numpy as np
from transformers import WhisperTokenizer
from transformers import WhisperProcessor
from transformers import WhisperFeatureExtractor
from transformers import WhisperForConditionalGeneration
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
mp3_path = "https://huggingface.co/bangla-speech-processing/BanglaASR/resolve/main/mp3/common_voice_bn_31515636.mp3"
model_path = "bangla-speech-processing/BanglaASR"
feature_extractor = WhisperFeatureExtractor.from_pretrained(model_path)
tokenizer = WhisperTokenizer.from_pretrained(model_path)
processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(model_path).to(device)
speech_array, sampling_rate = torchaudio.load(mp3_path, format="mp3")
speech_array = speech_array[0].numpy()
speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
input_features = feature_extractor(speech_array, sampling_rate=16000, return_tensors="pt").input_features
predicted_ids = model.generate(inputs=input_features.to(device))[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)
print(transcription)
✨ 主な機能
- バングラ語の自動音声認識を高精度に行うことができます。
- Whisperモデルをベースにしており、最新の技術を活用しています。
📦 データセット
学習と検証には、モズィラ・コモン・ボイス・データセットの約400時間分のデータ(学習用40k、検証用7kのmp3サンプル)を使用しています。
詳細については、こちらをクリックしてください。
📚 ドキュメント
学習モデル情報
サイズ |
レイヤー数 |
幅 |
ヘッド数 |
パラメータ数 |
バングラ語専用 |
学習状態 |
tiny |
4 |
384 |
6 |
39 M |
X |
X |
base |
6 |
512 |
8 |
74 M |
X |
X |
small |
12 |
768 |
12 |
244 M |
✓ |
✓ |
medium |
24 |
1024 |
16 |
769 M |
X |
X |
large |
32 |
1280 |
20 |
1550 M |
X |
X |
評価
単語誤り率は4.58%です。
詳細については、GitHubを確認してください。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
引用
@misc{BanglaASR ,
title={Transformer Based Whisper Bangla ASR Model},
author={Md Saiful Islam},
howpublished={},
year={2023}
}