🚀 NVIDIA Conformer-CTC Large (fr)
このモデルは、1500時間以上のフランス語の音声を含む複合データセットで学習されました。Conformerの非自己回帰型の「ラージ」バリアントで、約1億2000万個のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。また、本番環境でのサーバーデプロイメント用のNVIDIA Rivaと互換性があります。
|
|
|
|
|
🚀 クイックスタート
このモデルは、NeMoツールキット[3]で使用でき、推論用または別のデータセットでの微調整用の事前学習済みチェックポイントとして使用できます。
モデルを学習、微調整、または試すには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをお勧めします。
pip install nemo_toolkit['all']
✨ 主な機能
- 1500時間以上のフランス語の音声を含む複合データセットで学習されたモデル。
- Conformerの非自己回帰型の「ラージ」バリアントで、約1億2000万個のパラメータを持つ。
- NVIDIA Rivaと互換性があり、本番環境でのサーバーデプロイメントに適している。
📦 インストール
モデルを使用するには、NeMoツールキットをインストールする必要があります。以下のコマンドを実行してインストールしてください。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_fr_conformer_ctc_large")
高度な使用法
サンプル音声ファイルの取得
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
音声ファイルの文字起こし
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_fr_conformer_ctc_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
📚 ドキュメント
入力
このモデルは、16000kHzのモノラルチャンネルの音声(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。
モデルアーキテクチャ
Conformer-CTCモデルは、自動音声認識用のConformerモデル[1]の非自己回帰型バリアントで、Transducerの代わりにCTC損失/デコードを使用しています。このモデルの詳細については、Conformer-CTCモデルを参照してください。
学習
NeMoツールキット[3]を使用して、数百エポック以上の学習を行いました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用して学習されました。
これらのモデルのトークナイザーは、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されました。
リスコアリングに使用される言語モデルのチェックポイントは、こちらで見つけることができます。ASRモデルの言語モデルの学習と使用方法の詳細については、ASR言語モデリングを参照してください。
データセット
このコレクションのすべてのモデルは、1000時間以上のフランス語の音声を含む複合データセット(NeMo ASRSET)で学習されています。
- MozillaCommonVoice 7.0 - 356時間
- Multilingual LibriSpeech - 1036時間
- VoxPopuli - 182時間
両方のモデルは同じデータセットを使用していますが、2次モデルの学習には、データからハイフンを削除する前処理ステップが含まれていません。
性能
自動音声認識モデルの性能は、単語誤り率(Word Error Rate)を使用して測定されます。このデータセットは複数のドメインとより大きなコーパスで学習されているため、一般的に音声の文字起こしにおいてより良い性能を発揮します。
最新のモデルは、以下の評価データセットで以下の貪欲スコアを達成しています。
- MCV7.0開発セットで8.35%
- MCV7.0テストセットで9.63%
- MLS開発セットで5.88%
- MLSテストセットで4.91%
128ビームサーチと4gram KenLMモデルを使用した場合:
- MCV7.0開発セットで7.95%
- MCV7.0テストセットで9.16%
- MLS開発セットで5.57%
- MLSテストセットで4.66%
これらの評価データセットは、フランス語のアルファベット文字のみを含むようにフィルタリングおよび前処理されており、ハイフネーションとアポストロフィ以外の句読点は削除されています。
制限事項
このモデルは公開されている音声データセットで学習されているため、モデルが学習していない技術用語や方言を含む音声に対しては、性能が低下する可能性があります。また、アクセントのある音声に対しても性能が低下する可能性があります。
さらに、学習セットの一部には、1990年以前と以降の正書法改革の両方のテキストが含まれているため、句読点の規則性は2つのスタイル間で異なる場合があります。より一貫性のある下流タスクの場合は、微調整または下流処理が必要になる場合があります。正確な正書法が必要ない場合は、2次モデルの使用をお勧めします。
NVIDIA Rivaを使用したデプロイメント
最高のリアルタイム精度、レイテンシー、およびスループットを実現するには、NVIDIA Rivaを使用してモデルをデプロイしてください。NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境でデプロイ可能な高速化された音声AI SDKです。
さらに、Rivaは以下の機能を提供します。
- 数十万のGPUコンピュート時間で独自のデータで学習されたモデルチェックポイントを使用した、最も一般的な言語に対する世界クラスの即時精度。
- 実行時の単語ブースト(例:ブランド名や製品名)と音響モデル、言語モデル、および逆テキスト正規化のカスタマイズによる最高クラスの精度。
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート。
Rivaのライブデモをご覧ください。
🔧 技術詳細
このモデルは、Conformer-CTCアーキテクチャを使用しており、非自己回帰型の音声認識モデルです。約1億2000万個のパラメータを持ち、1500時間以上のフランス語の音声を含む複合データセットで学習されています。
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。
参考文献