🚀 NVIDIA Conformer-Transducer Large (es)
このモデルは、スペースを含む小文字のスペイン語アルファベットで音声を文字起こしし、1340時間のスペイン語音声からなる複合データセットで学習されました。Conformer-Transducerの「大型」バリアントで、約1億2000万のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
モデルのトレーニング
モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
モデルの使用方法
このモデルは、NeMoツールキット[3]で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでのファインチューニング用として使用できます。
基本的な使用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_es_conformer_transducer_large")
高度な使用法
Pythonを使用した文字起こし
まず、サンプル音声ファイルを取得します。
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
次に、以下のコードを実行して文字起こしを行います。
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_es_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000 Hzのモノラルチャンネル音声(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。
✨ 主な機能
- スペースを含む小文字のスペイン語アルファベットでの音声文字起こし
- 1340時間のスペイン語音声からなる複合データセットで学習
- Conformer-Transducerの「大型」バリアントで、約1億2000万のパラメータ
📦 インストール
モデルを使用するには、以下のコマンドでNVIDIA NeMoをインストールします。
pip install nemo_toolkit['all']
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識用のConformerモデル[1]の自己回帰型バリアントで、CTC損失の代わりにTransducer損失/デコードを使用します。このモデルの詳細については、Conformer-Transducer Modelを参照してください。
トレーニング
NeMoツールキット[3]を使用して、数百エポックにわたってモデルをトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされました。
これらのモデルのトークナイザーは、このスクリプトを使用してトレーニングセットのテキストトランスクリプトから構築されました。
データセット
このコレクションのすべてのモデルは、1340時間のスペイン語音声からなる複合データセット(NeMo ASRSET)でトレーニングされています。
- Mozilla Common Voice 7.0(スペイン語) - データクリーニング後289時間
- Multilingual LibriSpeech(スペイン語) - データクリーニング後801時間
- Voxpopuli transcribed subset(スペイン語) - データクリーニング後110時間
- Fisher dataset(スペイン語) - データクリーニング後140時間
パフォーマンス
このコレクションで利用可能なモデルのリストを以下の表に示します。ASRモデルのパフォーマンスは、貪欲デコードによる単語誤り率(WER%)で報告されています。
バージョン |
トークナイザー |
語彙サイズ |
MCV 7.0 Dev |
MCV 7.0 Test |
MLS Dev |
MLS Test |
Voxpopuli Dev |
Voxpopuli Test |
Fisher Dev |
Fisher Test |
トレーニングデータセット |
1.8.0 |
SentencePiece Unigram |
1024 |
4.6 |
5.2 |
2.7 |
3.2 |
4.7 |
6.0 |
14.7 |
14.8 |
NeMo ASRSET 2.0 |
制限事項
このモデルは公開されている音声データセットでトレーニングされているため、モデルがトレーニングされていない技術用語や方言を含む音声に対しては、モデルのパフォーマンスが低下する可能性があります。また、アクセントのある音声に対してもパフォーマンスが低下する可能性があります。
NVIDIA Riva: デプロイメント
NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声AI SDKです。
さらに、Rivaは以下の機能を提供します。
- 数十万のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントによる、最も一般的な言語に対する世界クラスの即時精度
- 実行時の単語ブースト(例:ブランド名や製品名)と音響モデル、言語モデル、および逆テキスト正規化のカスタマイズによる最高クラスの精度
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート
このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。
Rivaのライブデモもチェックしてみてください。
参考文献
📄 ライセンス
このモデルを使用するためのライセンスは、CC-BY-4.0に準拠しています。モデルの公開およびリリースバージョンをダウンロードすることで、CC-BY-4.0ライセンスの条件に同意したことになります。