🚀 NVIDIA Conformer-Transducer X-Large (en-US)
このモデルは、英語の音声を小文字のアルファベット、スペース、アポストロフィで文字起こしします。Conformer-Transducerの「Extra-Large」バージョン(約6億パラメータ)です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
このモデルは、英語の音声を小文字のアルファベット、スペース、アポストロフィで文字起こしします。Conformer-Transducerの「Extra-Large」バージョン(約6億パラメータ)です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
✨ 主な機能
- 英語の音声を小文字のアルファベット、スペース、アポストロフィで文字起こしする機能。
- Conformer-Transducerの「Extra-Large」バージョン(約6億パラメータ)。
📦 インストール
モデルをトレーニング、ファインチューニングするには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
(エラーが発生した場合):
pip install nemo_toolkit[all]
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_en_conformer_transducer_xlarge")
高度な使用法
サンプルの取得
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
文字起こし
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_en_conformer_transducer_xlarge"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000 KHzのモノラルチャンネルの音声(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識のためのConformerモデル[1]の自己回帰バリアントで、CTC損失の代わりにTransducer損失/デコードを使用しています。このモデルの詳細については、Conformer-Transducerモデルを参照してください。
トレーニング
NeMoツールキット[3]を使用して、数百エポック以上のトレーニングを行いました。これらのモデルは、このサンプルスクリプトとこのベースコンフィグを使用してトレーニングされています。
これらのモデルのトークナイザーは、トレーニングセットのテキストトランスクリプトを使用して、このスクリプトで構築されています。
データセット
このコレクションのすべてのモデルは、数千時間の英語の音声から構成される複合データセット(NeMo ASRSET)でトレーニングされています。
- Librispeech:960時間の英語の音声
- Fisher Corpus
- Switchboard-1 Dataset
- WSJ-0とWSJ-1
- National Speech Corpus(Part 1、Part 6)
- VCTK
- VoxPopuli(EN)
- Europarl-ASR(EN)
- Multilingual Librispeech(MLS EN) - 2,000時間のサブセット
- Mozilla Common Voice(v8.0)
- People's Speech - 12,000時間のサブセット
注: 古いバージョンのモデルは、より小さいデータセットでトレーニングされている可能性があります。
パフォーマンス
このコレクションで利用可能なモデルのリストを次の表に示します。ASRモデルのパフォーマンスは、貪欲デコードによる単語誤り率(WER%)で報告されています。
バージョン |
トークナイザー |
語彙サイズ |
LS test-other |
LS test-clean |
WSJ Eval92 |
WSJ Dev93 |
NSC Part 1 |
MLS Test |
MLS Dev |
MCV Test 8.0 |
トレーニングデータセット |
1.10.0 |
SentencePiece Unigram |
1024 |
3.01 |
1.62 |
1.17 |
2.05 |
5.70 |
5.32 |
4.59 |
6.46 |
NeMo ASRSET 3.0 |
制限事項
このモデルは公開されている音声データセットでトレーニングされているため、技術用語やモデルがトレーニングされていない方言を含む音声に対しては、パフォーマンスが低下する可能性があります。また、アクセントのある音声に対しても、パフォーマンスが低下する可能性があります。
NVIDIA Riva: デプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、組み込み環境で展開可能な高速化された音声AI SDKです。
さらに、Rivaは以下の機能を提供します。
- 数十万のGPUコンピュート時間で独自のデータでトレーニングされたモデルチェックポイントを使用した、最も一般的な言語に対する世界クラスの精度。
- ランタイムでの単語ブースト(例:ブランド名や製品名)と音響モデル、言語モデル、逆テキスト正規化のカスタマイズによる最高の精度。
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート。
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。
Rivaのライブデモをご確認ください。
参考文献
[1] Conformer: Convolution-augmented Transformer for Speech Recognition
[2] Google Sentencepiece Tokenizer
[3] NVIDIA NeMo Toolkit
📄 ライセンス
このモデルを使用するためのライセンスは、CC-BY-4.0に準拠しています。モデルの公開バージョンをダウンロードすることで、CC-BY-4.0ライセンスの条件に同意したことになります。