🚀 NVIDIA FastConformer-CTC XLarge (en)
このモデルは、英語の音声を小文字のアルファベットで文字起こしします。FastConformer CTCモデルの「Extra Large」バージョン(約6億パラメータ)です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
NVIDIA NeMo: トレーニング
モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPytorchをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
このモデルの使用方法
このモデルはNeMoツールキット[3]で使用でき、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして使用できます。
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_ctc_xlarge")
高度な使用法
Pythonを使用した文字起こし
まず、サンプルを取得します。
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
次に、以下のようにします。
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
多数の音声ファイルを文字起こしする
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_en_fastconformer_ctc_xlarge"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000 Hzのモノラルチャンネルオーディオ(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。
✨ 主な機能
モデルアーキテクチャ
FastConformer [1]は、Conformerモデルの最適化バージョンで、8倍のデプスワイズ分離畳み込みダウンサンプリングが行われます。このモデルはCTC損失を使用してトレーニングされています。FastConformerの詳細については、Fast-Conformer Modelを参照してください。
トレーニング
NeMoツールキット[3]を使用して、数百エポック以上のトレーニングを行いました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。
これらのモデルのトークナイザーは、トレーニングセットのテキスト文字起こしを使用して、このスクリプトで構築されています。
データセット
このコレクションのモデルは、数千時間の英語の音声からなる複合データセット(NeMo ASRSet En)でトレーニングされています。
- Librispeech:960時間の英語の音声
- Fisher Corpus
- Switchboard-1 Dataset
- WSJ-0およびWSJ-1
- National Speech Corpus(Part 1、Part 6)
- VCTK
- VoxPopuli(EN)
- Europarl-ASR(EN)
- Multilingual Librispeech(MLS EN) - 2000時間のサブセット
- Mozilla Common Voice(v7.0)
- People's Speech - 12000時間のサブセット
性能
自動音声認識モデルの性能は、単語誤り率(Word Error Rate)で測定されます。このデータセットは複数のドメインとより大規模なコーパスでトレーニングされているため、一般的に音声の文字起こしにおいてより良い性能を発揮します。
以下の表は、このコレクションで利用可能なモデルの性能を、トランスデューサーデコーダーでまとめたものです。ASRモデルの性能は、貪欲復号化による単語誤り率(WER%)で報告されています。
Version |
Tokenizer |
Vocabulary Size |
LS test-other |
LS test-clean |
WSJ Eval92 |
WSJ Dev93 |
NSC Part 1 |
MLS Test |
MCV Test 7.0 |
トレーニングデータセット |
1.20.0 |
SentencePiece Unigram |
1024 |
3.65 |
1.8 |
1.32 |
2.42 |
6.60 |
5.87 |
7.73 |
NeMo ASRSET 3.0 |
制限事項
このモデルは公開されている音声データセットでトレーニングされているため、モデルがトレーニングされていない技術用語や方言を含む音声に対しては、性能が低下する可能性があります。また、アクセントのある音声に対しても性能が劣る場合があります。
NVIDIA Riva: デプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声AI SDKです。
さらに、Rivaは以下の機能を提供します。
- 数十万時間のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントにより、最も一般的な言語に対して世界クラスの精度を提供
- ランタイムでの単語ブースト(例:ブランド名や製品名)、および音響モデル、言語モデル、逆テキスト正規化のカスタマイズにより、クラス最高の精度を実現
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。Rivaのライブデモもご覧ください。
🔧 技術詳細
参考文献
[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
[2] Google Sentencepiece Tokenizer
[3] NVIDIA NeMo Toolkit
📄 ライセンス
このモデルを使用するためのライセンスは、CC-BY-4.0に準拠しています。モデルの公開バージョンをダウンロードすることで、CC-BY-4.0ライセンスの条件に同意したことになります。