🚀 NVIDIA FastConformer-Hybrid Large (uz)
このモデルは、スペース、コンマ、疑問符、ダッシュを含む大文字と小文字のウズベク語アルファベットのテキストを文字起こしします。FastConformer Transducer - CTC の「ラージ」バージョン(約 1 億 1500 万のパラメータ)で、Transducer(デフォルト)と CTC の 2 つの損失関数で学習されたハイブリッドモデルです。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMo ドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
モデルを学習、ファインチューニング、または操作するには、NVIDIA NeMo をインストールする必要があります。最新バージョンの Pytorch をインストールした後に NeMo をインストールすることをおすすめします。
pip install nemo_toolkit['all']
✨ 主な機能
- ウズベク語の文字起こしを行うことができます。
- FastConformer Transducer - CTC のラージバージョンで、2 つの損失関数で学習されたハイブリッドモデルです。
📦 インストール
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_uz_fastconformer_hybrid_large_pc")
高度な使用法
単一の音声ファイルの文字起こし
output = asr_model.transcribe(['audio_file.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
Transducer モードの推論
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
CTC モードの推論
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
decoder_type="ctc"
入力
このモデルは、16000 Hz のモノラルチャンネル音声(wav ファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として出力します。
📚 ドキュメント
モデルアーキテクチャ
FastConformer [1] は、Conformer モデルの最適化されたバージョンで、8 倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、Transducer デコーダの損失関数を用いたマルチタスク設定で学習されています。FastConformer の詳細については、Fast - Conformer Model を参照してください。
学習
NeMo ツールキット [3] を使用して、数百エポック以上にわたってモデルを学習させました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用して学習されました。
これらのモデルのトークナイザーは、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されました。
データセット
このモデルは、1000 時間のウズベク語の音声からなる 3 つの複合データセットで学習されています。
- MCV 17.0 Uzbek (~90 時間)
- UzbekVoice (~900 時間)
- Fleurs Uzbek (~10 時間)
性能
自動音声認識モデルの性能は、単語誤り率(Word Error Rate)を使用して測定されます。このデータセットは複数のドメインとより大きなコーパスで学習されているため、一般的な音声の文字起こしではより良い性能を発揮します。
以下の表は、Transducer デコーダを使用したモデルの性能をまとめたものです。ASR モデルの性能は、貪欲復号化による単語誤り率(WER%)で報告されています。
|
WER(%) |
WER wo CAP |
WER wo PUNCT |
WER wo PUNCT CAP |
FLEURS DEV (used as test) |
17.52 |
16.20 |
12.20 |
10.73 |
MCV TEST |
16.46 |
15.89 |
7.78 |
7.18 |
制限事項
このモデルは非ストリーミング型で、大文字小文字や句読点を含まない文字列として音声を出力します。このモデルは公開されている音声データセットで学習されているため、モデルが学習していない技術用語や方言を含む音声に対しては、性能が低下する可能性があります。
NVIDIA Riva: デプロイメント
NVIDIA Riva は、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声 AI SDK です。
さらに、Riva は以下の機能を提供します。
- 数十万の GPU コンピューティング時間で独自データを使用して学習されたモデルチェックポイントを備え、最も一般的な言語に対して世界クラスの精度を提供します。
- ランタイムでの単語ブースト(例:ブランドや製品名)および音響モデル、言語モデル、逆テキスト正規化のカスタマイズにより、クラス最高の精度を実現します。
- ストリーミング音声認識、Kubernetes 互換のスケーリング、およびエンタープライズグレードのサポートを提供します。
このモデルはまだ Riva でサポートされていませんが、サポートされているモデルのリストはこちらです。Riva のライブデモもチェックしてみてください。
🔧 技術詳細
引用
[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
[2] Google Sentencepiece Tokenizer
[3] NVIDIA NeMo Toolkit
📄 ライセンス
このモデルの使用ライセンスは、CC - BY - 4.0 に準拠しています。モデルの公開バージョンをダウンロードすることで、CC - BY - 4.0 ライセンスの条件に同意したことになります。