🚀 NVIDIA Conformer-Transducer Large (de)
このモデルは、自動音声認識(Automatic Speech Recognition)に特化したConformer-Transducerモデルの大規模版です。ドイツ語の音声を高精度に文字起こしすることができ、多くのデータセットで学習されています。
🚀 クイックスタート
このモデルを使用するには、まずNVIDIA NeMoをインストールする必要があります。以下のコマンドを実行してください。
pip install nemo_toolkit['all']
モデルのインスタンス化
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")
音声ファイルの文字起こし
まず、サンプル音声ファイルをダウンロードします。
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
次に、以下のコードで文字起こしを行います。
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルを文字起こしする
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_de_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
✨ 主な機能
- 高精度な音声認識:ドイツ語の音声を高精度に文字起こしします。
- 多様なデータセットでの学習:VoxPopuli、Multilingual Librispeech、Mozilla Common Voiceなどのデータセットで学習されています。
- Conformer-Transducerアーキテクチャ:自動音声認識に特化したConformer-Transducerアーキテクチャを採用しています。
📦 インストール
このモデルを使用するには、NVIDIA NeMoをインストールする必要があります。以下のコマンドを実行してください。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")
高度な使用法
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_de_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識用のConformerモデルの自己回帰型バリアントです。このモデルは、CTC損失の代わりにTransducer損失/デコードを使用しています。詳細については、Conformer-Transducer Modelを参照してください。
学習
NeMoツールキットを使用して、数百エポック以上の学習を行いました。これらのモデルは、example scriptとbase configを使用して学習されています。
データセット
このコレクションのすべてのモデルは、数千時間のドイツ語の音声から構成される複合データセット(NeMo ASRSET)で学習されています。
- VoxPopuli (DE) 200時間のサブセット
- Multilingual Librispeech (MLS DE) - 1500時間のサブセット
- Mozilla Common Voice (v7.0)
性能
このコレクションで利用可能なモデルのリストは、次の表に示されています。ASRモデルの性能は、貪欲デコードによる単語誤り率(WER%)で報告されています。
バージョン |
トークナイザー |
語彙サイズ |
MCV7.0 dev |
MCV7.0 test |
MLS dev |
MLS test |
Voxpopuli dev |
Voxpopuli test |
1.6.0 |
SentencePiece Unigram |
1024 |
4.40 |
4.93 |
3.22 |
3.85 |
11.04 |
8.85 |
制限事項
このモデルは公開されている音声データセットで学習されているため、技術用語やモデルが学習していない方言を含む音声では、モデルの性能が低下する可能性があります。また、アクセントのある音声でも性能が低下する可能性があります。
NVIDIA Rivaによるデプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、組み込み環境でデプロイ可能な高速化された音声AI SDKです。
また、Rivaは以下の機能を提供します。
- 数十万のGPUコンピュート時間で独自データを使用して学習されたモデルチェックポイントを使用した、最も一般的な言語に対する世界クラスの精度
- 実行時の単語ブースト(例:ブランドや製品名)および音響モデル、言語モデル、逆テキスト正規化のカスタマイズによる最高クラスの精度
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。
Rivaのライブデモもご覧ください。
🔧 技術詳細
Conformer-Transducerモデルは、自動音声認識用のConformerモデルの自己回帰型バリアントです。このモデルは、CTC損失の代わりにTransducer損失/デコードを使用しています。詳細については、Conformer-Transducer Modelを参照してください。
📄 ライセンス
このモデルを使用するためのライセンスは、CC-BY-4.0によってカバーされています。モデルの公開およびリリースバージョンをダウンロードすることにより、CC-BY-4.0ライセンスの条件に同意するものとみなされます。