🚀 LargeScaleASRデータセットの25,000時間用Conformer
このモデルは、サムスンAIセンター・ケンブリッジによる貢献です。
このリポジトリは、SpeechBrain内でLargeScaleASR (EN) で事前学習されたエンドツーエンドシステムから自動音声認識を実行するために必要なすべてのツールを提供します。より良い体験を得るために、SpeechBrain についてもっと学ぶことをおすすめします。
このモデルの性能は以下の通りです。
#パラメータ |
検証WER |
テストWER |
LibriSpeech test-other |
CommonVoice 18 test |
Voxpopuli test |
GPU |
480M |
6.8 |
7.5 |
4.6 |
12.0 |
6.9 |
8xV100 32GB |
このデータセットで独自のモデルを学習させたい場合は、SpeechBrainツールキットを参照してください。
🚀 クイックスタート
📦 インストール
まずは、以下のコマンドでSpeechBrainをインストールしてください。
pip install speechbrain
SpeechBrain に関するチュートリアルを読み、もっと詳しく学ぶことをおすすめします。
💻 使用例
基本的な使用法
from speechbrain.inference.ASR import EncoderDecoderASR
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr")
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"test_beam_size":"1"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", overrides={"scorer":None, "ctc_weight_decode":0.0})
asr_model.transcribe_file("speechbrain/asr-conformer-largescaleasr/example.wav")
高度な使用法
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-conformer-largescaleasr", savedir="pretrained_models/asr-conformer-largescaleasr", run_opts={"device":"cuda"})
バッチでの並列推論
事前学習済みモデルを使用して入力文のバッチを並列に文字起こしする方法については、このColabノートブック を参照してください。
✨ 主な機能
この自動音声認識(ASR)システムは、2つの異なるが関連するブロックで構成されています。
- トークナイザー(ユニグラム):単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。
- 音響モデル:コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。
このシステムは、16kHzでサンプリングされた録音(単一チャンネル)で学習されています。コードは、必要に応じて transcribe_file を呼び出す際に自動的にオーディオを正規化します(すなわち、リサンプリング + モノチャンネル選択)。
📚 ドキュメント
パイプラインの説明
このASRシステムは、2つの異なるが関連するブロックで構成されています。
- トークナイザー(ユニグラム):単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。
- 音響モデル:コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。
このシステムは、16kHzでサンプリングされた録音(単一チャンネル)で学習されています。コードは、必要に応じて transcribe_file を呼び出す際に自動的にオーディオを正規化します(すなわち、リサンプリング + モノチャンネル選択)。
🔧 技術詳細
このASRシステムは、2つの異なるが関連するブロックで構成されています。トークナイザー(ユニグラム)は、単語をサブワードユニットに変換し、LargeScaleASRデータセットの学習用文字起こしデータで学習されます。音響モデルは、コンフォーマーエンコーダとCTC + トランスフォーマーを備えたジョイントデコーダで構成されています。したがって、デコードにはCTCの確率も組み込まれています。システムは、16kHzでサンプリングされた録音(単一チャンネル)で学習されています。コードは、必要に応じて transcribe_file を呼び出す際に自動的にオーディオを正規化します(すなわち、リサンプリング + モノチャンネル選択)。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
その他の情報
SpeechBrainについて
- ウェブサイト: https://speechbrain.github.io/
- コード: https://github.com/speechbrain/speechbrain/
- HuggingFace: https://huggingface.co/speechbrain/
SpeechBrainの引用
SpeechBrainを研究やビジネスで使用する場合は、以下の文献を引用してください。
@article{speechbrainV1,
author = {Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Ha Nguyen and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Ga{{\"e}}lle Laperri{{\`e}}re and Mickael Rouvier and Renato De Mori and Yannick Est{{\`e}}ve},
title = {Open-Source Conversational AI with SpeechBrain 1.0},
journal = {Journal of Machine Learning Research},
year = {2024},
volume = {25},
number = {333},
pages = {1--11},
url = {http://jmlr.org/papers/v25/24-0991.html}
}
モデル情報
属性 |
详情 |
モデルタイプ |
Conformerを用いた自動音声認識モデル |
学習データ |
LargeScaleASRデータセット |
評価指標 |
単語誤り率(WER)、文字誤り率(CER) |