🚀 NVIDIA FastConformer-Hybrid Large (ua)
このモデルは、大文字と小文字のウクライナ語アルファベットを含む音声を、スペース、ピリオド、コンマ、疑問符とともに文字起こしします。FastConformer Transducer - CTCの「大規模」バージョン(約1億1500万のパラメータ)で、Transducer(デフォルト)とCTCの2つの損失関数で訓練されたハイブリッドモデルです。
|
|
| 
🚀 クイックスタート
このモデルを使用するには、まずNVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、以下のコマンドを実行してください。
pip install nemo_toolkit['all']
✨ 主な機能
- ウクライナ語の音声を文字起こしすることができます。
- 大文字と小文字のウクライナ語アルファベット、スペース、ピリオド、コンマ、疑問符を認識します。
- FastConformer Transducer - CTCの大規模バージョンで、高精度な文字起こしが可能です。
📦 インストール
このモデルを使用するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、以下のコマンドを実行してください。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ua_fastconformer_hybrid_large_pc")
高度な使用法
音声ファイルのダウンロード
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
文字起こしの実行
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし(Transducerモード)
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
複数の音声ファイルの文字起こし(CTCモード)
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
decoder_type="ctc"
📚 ドキュメント
モデルアーキテクチャ
FastConformer [1]は、8倍の深さ方向分離畳み込みダウンサンプリングを備えたConformerモデルの最適化バージョンです。このモデルは、TransducerとCTCのデコーダ損失を用いたマルチタスク設定で訓練されています。詳細については、Fast-Conformer ModelとHybrid Transducer-CTCを参照してください。
訓練
このモデルは、NeMoツールキット [3]を使用して数百エポック以上訓練されています。訓練には、このスクリプトとこのベースコンフィグが使用されています。
トークナイザーは、訓練セットのテキストトランスクリプトを使用して、このスクリプトで構築されています。
データセット
このコレクションのすべてのモデルは、153時間のウクライナ語音声からなる複合データセット(NeMo PnC ASRSET)で訓練されています。
- MCV12 (70時間)
- M-AILabs (83時間)
性能
自動音声認識モデルの性能は、単語誤り率(Word Error Rate)で測定されます。このデータセットは複数のドメインとより大規模なコーパスで訓練されているため、一般的に音声の文字起こしにおいて良好な性能を発揮します。
以下の表は、このコレクションで利用可能なモデルの性能をTransducerデコーダでまとめたものです。ASRモデルの性能は、貪欲復号化による単語誤り率(WER%)で報告されています。
a) 句読点と大文字を含まないデータでのTransducerデコーダの性能
Version |
Tokenizer |
Vocabulary Size |
MCV12 TEST |
1.0.2 |
SentencePiece Unigram |
512 |
5.66 |
b) 句読点と大文字を含むデータでのTransducerデコーダの性能
Version |
Tokenizer |
Vocabulary Size |
MCV12 TEST |
1.0.2 |
SentencePiece Unigram |
512 |
8.06 |
制限事項
このモデルは公開されている音声データセットで訓練されているため、技術用語やモデルが訓練されていない方言を含む音声に対しては性能が低下する可能性があります。また、アクセントのある音声に対しても性能が低下する場合があります。このモデルは、'.', ',', '?'
の句読点のみを出力するため、他の句読点も必要なシナリオではうまく機能しない可能性があります。
NVIDIA Rivaによるデプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、組み込み環境で展開可能な高速化された音声AI SDKです。
また、Rivaは以下の機能を提供します。
- 独自のデータで数十万時間のGPUコンピューティング時間をかけて訓練されたモデルチェックポイントを使用して、最も一般的な言語で世界クラスの精度を提供します。
- ランタイムでの単語ブースト(例:ブランド名や製品名)と音響モデル、言語モデル、逆テキスト正規化のカスタマイズにより、最高水準の精度を実現します。
- ストリーミング音声認識、Kubernetes互換のスケーリング、エンタープライズグレードのサポートを提供します。
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。Rivaのライブデモもご覧ください。
🔧 技術詳細
モデルアーキテクチャ
FastConformer [1]は、8倍の深さ方向分離畳み込みダウンサンプリングを備えたConformerモデルの最適化バージョンです。このモデルは、TransducerとCTCのデコーダ損失を用いたマルチタスク設定で訓練されています。詳細については、Fast-Conformer ModelとHybrid Transducer-CTCを参照してください。
訓練
このモデルは、NeMoツールキット [3]を使用して数百エポック以上訓練されています。訓練には、このスクリプトとこのベースコンフィグが使用されています。
トークナイザーは、訓練セットのテキストトランスクリプトを使用して、このスクリプトで構築されています。
📄 ライセンス
このモデルを使用するライセンスは、CC - BY - 4.0です。モデルの公開バージョンをダウンロードすることで、CC - BY - 4.0ライセンスの条件に同意したことになります。