🚀 titu_stt_bn_fastconformer
titu_stt_bn_fastconformerは、約18,000時間のMegaBNSpeechコーパスで学習された、fastconformerベースのモデルです。このモデルは、ベンガル語の音声を文字起こしするために使用でき、NeMoフレームワークを使用してカスタムデータセットで微調整するための事前学習モデルとしても利用できます。
🚀 クイックスタート
このモデルは、ベンガル語の音声を文字起こしするために使用できます。また、NeMoフレームワークを使用して、カスタムデータセットで微調整するための事前学習モデルとしても利用できます。
✨ 主な機能
- ベンガル語の音声を文字起こしすることができます。
- NeMoフレームワークを使用して、カスタムデータセットで微調整することができます。
📦 インストール
NeMoをインストールするには、NeMoのドキュメントを参照してください。
pip install -q 'nemo_toolkit[asr]'
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("hishab/titu_stt_bn_fastconformer")
auido_file = "test_bn_fastconformer.wav"
transcriptions = asr_model.transcribe([auido_file])
print(transcriptions)
高度な使用法
このモデルは、NeMoフレームワークを使用して、カスタムデータセットで微調整することができます。詳細については、NeMoのドキュメントを参照してください。
📚 ドキュメント
論文の詳細
https://aclanthology.org/2023.banglalp-1.16/
推論用のColabノートブック
Bangla FastConformer Infer.ipynb
テスト用音声ファイルのダウンロード
Download test_bn_fastconformer.wav
🔧 技術詳細
学習データセット
チャンネルカテゴリ |
時間 |
ニュース |
17,640.00 |
トークショー |
688.82 |
ブログ |
0.02 |
犯罪番組 |
4.08 |
合計 |
18,332.92 |
学習の詳細
このモデルを学習するために選択されたデータセットは、17,640時間のニュースチャンネルのコンテンツ、688.82時間のトークショー、0.02時間のブログ、および4.08時間の犯罪番組で構成されています。
評価

📄 ライセンス
このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。
引用
@inproceedings{nandi-etal-2023-pseudo,
title = "Pseudo-Labeling for Domain-Agnostic {B}angla Automatic Speech Recognition",
author = "Nandi, Rabindra Nath and
Menon, Mehadi and
Muntasir, Tareq and
Sarker, Sagor and
Muhtaseem, Quazi Sarwar and
Islam, Md. Tariqul and
Chowdhury, Shammur and
Alam, Firoj",
editor = "Alam, Firoj and
Kar, Sudipta and
Chowdhury, Shammur Absar and
Sadeque, Farig and
Amin, Ruhul",
booktitle = "Proceedings of the First Workshop on Bangla Language Processing (BLP-2023)",
month = dec,
year = "2023",
address = "Singapore",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.banglalp-1.16",
doi = "10.18653/v1/2023.banglalp-1.16",
pages = "152--162",
abstract = "One of the major challenges for developing automatic speech recognition (ASR) for low-resource languages is the limited access to labeled data with domain-specific variations. In this study, we propose a pseudo-labeling approach to develop a large-scale domain-agnostic ASR dataset. With the proposed methodology, we developed a 20k+ hours labeled Bangla speech dataset covering diverse topics, speaking styles, dialects, noisy environments, and conversational scenarios. We then exploited the developed corpus to design a conformer-based ASR system. We benchmarked the trained ASR with publicly available datasets and compared it with other available models. To investigate the efficacy, we designed and developed a human-annotated domain-agnostic test set composed of news, telephony, and conversational data among others. Our results demonstrate the efficacy of the model trained on psuedo-label data for the designed test-set along with publicly-available Bangla datasets. The experimental resources will be publicly available.https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR",
}