🚀 NVIDIA Conformer-Transducer Large (fr)
このモデルは、1500時間以上のフランス語の音声データを含む複合データセットで学習された、Conformer-Transducerの大規模版(約1億2000万パラメータ)です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
モデルを学習、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
✨ 主な機能
このモデルは、NeMoツールキットで使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでのファインチューニングに使用できます。
📦 インストール
モデルを使用するためには、上記のコマンドでNeMoツールキットをインストールしてください。
💻 使用例
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_fr_conformer_transducer_large")
高度な使用法
サンプル音声データの取得
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
音声の文字起こし
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_fr_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000kHzのモノラルチャンネル音声(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として出力します。
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識用のConformerモデル[1]の自己回帰バリアントで、CTC損失の代わりにTransducer損失/デコードを使用します。このモデルの詳細については、Conformer-Transducer Modelを参照してください。
学習
NeMoツールキット[3]を使用して、数百エポック以上の学習を行いました。これらのモデルは、このサンプルスクリプトとこの基本設定で学習されています。
これらのモデルのSentence-pieceトークナイザー[2]は、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されています。
データセット
このコレクションのすべてのモデルは、1000時間以上のフランス語の音声を含む複合データセット(NeMo ASRSET)で学習されています。
- MozillaCommonVoice 7.0 - 356時間
- Multilingual LibriSpeech - 1036時間
- VoxPopuli - 182時間
両方のモデルは同じデータセットを使用していますが、2番目のモデルの学習時には、データからハイフンを削除する前処理ステップがあります。
性能
自動音声認識モデルの性能は、単語誤り率(Word Error Rate)で測定されます。このデータセットは複数のドメインとより大規模なコーパスで学習されているため、一般的に音声の文字起こしにおいて良好な性能を発揮します。
最新のモデルは、以下の評価データセットで次の貪欲スコアを達成しています。
- MCV7.0 devで6.85%
- MCV7.0 testで7.95%
- MLS devで5.05%
- MLS testで4.10%
これらの評価データセットは、フランス語のアルファベット文字のみを含むようにフィルタリングおよび前処理されており、ハイフンとアポストロフィ以外の句読点は削除されています。
制限事項
このモデルは公開されている音声データセットで学習されているため、モデルが学習していない技術用語や方言を含む音声に対しては、性能が低下する可能性があります。また、アクセントのある音声に対しても性能が低下する場合があります。
さらに、学習セットの一部には、1990年の正書法改革前後のテキストが含まれているため、句読点の規則性は2つのスタイル間で異なる場合があります。
より一貫性のある下流タスクには、ファインチューニングまたは下流処理が必要になる場合があります。正確な正書法が必要ない場合は、2番目のモデルの使用をおすすめします。
参考文献
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。
情報テーブル
| 属性 | 詳細 |
|------|------|
| モデルタイプ | Conformer-Transducer |
| 学習データ | MozillaCommonVoice 7.0、Multilingual LibriSpeech、VoxPopuli |