🚀 NVIDIA Conformer-Transducer Large (zh-ZH)
このモデルは、中国語の音声を文字起こしします。Conformer-Transducerの大規模バージョン(約1億2000万のパラメータ)です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
モデルのインストール
モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをお勧めします。
pip install nemo_toolkit['all']
モデルの使用方法
このモデルは、NeMoツールキット[3]で使用でき、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")
高度な使用法
単一音声ファイルの文字起こし
output = asr_model.transcribe(['sample.wav'])
print(output[0].text)
複数音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_zh_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000 KHzのモノラルチャンネルオーディオ(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられたオーディオサンプルに対して、文字起こしされた音声を文字列として提供します。
✨ 主な機能
- 中国語の音声を高精度に文字起こしします。
- Conformer-Transducerアーキテクチャを採用し、自動音声認識タスクに適しています。
📦 インストール
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")
高度な使用法
単一音声ファイルの文字起こし
output = asr_model.transcribe(['sample.wav'])
print(output[0].text)
複数音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_zh_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識のためのConformerモデル[1]の自己回帰型のバリアントで、CTC損失の代わりにTransducer損失/デコーディングを使用しています。このモデルの詳細については、Conformer-Transducer Modelを参照してください。
トレーニング
NeMoツールキット[3]を使用して、数百エポック以上にわたってモデルをトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。
データセット
このコレクションのすべてのモデルは、中国語の音声から構成されるAISHELL2 [4]でトレーニングされています。
パフォーマンス
このコレクションで利用可能なモデルのリストを以下の表に示します。ASRモデルのパフォーマンスは、貪欲デコーディングによる単語誤り率(WER%)で報告されています。
バージョン |
トークナイザー |
語彙サイズ |
AISHELL2テストIOS |
AISHELL2テストAndroid |
AISHELL2テストMic |
トレーニングデータセット |
1.10.0 |
文字 |
5026 |
5.3 |
5.7 |
5.6 |
AISHELL-2 |
制限事項
このモデルは公開されている音声データセットでトレーニングされているため、モデルがトレーニングされていない技術用語や方言を含む音声に対しては、パフォーマンスが低下する可能性があります。また、アクセントのある音声に対してもパフォーマンスが低下する場合があります。
NVIDIA Riva: デプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声AI SDKです。
さらに、Rivaは以下の機能を提供します。
- 数十万のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントにより、最も一般的な言語に対して世界クラスの即時精度を提供します。
- ランタイムの単語ブースト(例:ブランドや製品名)、および音響モデル、言語モデル、および逆テキスト正規化のカスタマイズにより、クラス最高の精度を提供します。
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポートを提供します。
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。
Rivaのライブデモもチェックしてみてください。
🔧 技術詳細
Conformer-Transducerモデルは、自動音声認識のためのConformerモデル[1]の自己回帰型のバリアントで、CTC損失の代わりにTransducer損失/デコーディングを使用しています。
📄 ライセンス
このモデルを使用するためのライセンスは、CC-BY-4.0によってカバーされています。モデルの公開およびリリースバージョンをダウンロードすることで、CC-BY-4.0ライセンスの条件に同意するものとみなされます。
参考文献
[1] Conformer: Convolution-augmented Transformer for Speech Recognition
[2] Google Sentencepiece Tokenizer
[3] NVIDIA NeMo Toolkit
[4] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale