stt_es_conformer_ctc_largeオープンソースモデル - 無料でデプロイしてスペイン語の自動音声認識を実現

ホーム

Stt Es Conformer Ctc Large

nvidiaによって開発

これはNVIDIAがトレーニングし公開した、スペイン語自動音声認識(ASR)用の大型Conformer-CTCモデルです。

音声認識

PyTorch

スペイン語#スペイン語音声認識 #高精度WER #複数データセットトレーニング

ダウンロード数 59

リリース時間 : 7/8/2022

モデル概要

このモデルは、スペースを含む小文字のスペイン語アルファベットの音声を転写するために使用され、Conformerアーキテクチャに基づき、CTC損失/デコード方法を採用しています。

モデル特徴

高性能認識

Common Voice 7.0テストセットでWER5.5%など、複数のテストセットで優れた性能を発揮

大規模トレーニングデータ

1340時間のスペイン語音声データを使用してトレーニング

Rivaデプロイ互換

NVIDIA Rivaと連携可能で、プロダクションレベルのサーバー展開を実現

非自己回帰アーキテクチャ

Conformer-CTCの非自己回帰アーキテクチャを採用、約1.2億パラメータ

モデル能力

スペイン語音声認識

音声転写

16kHzモノラル音声入力対応

使用事例

音声からテキストへ

音声転写サービス

スペイン語音声コンテンツをテキストに変換

高精度な転写結果

音声アシスタント

スペイン語音声アシスタント

スペイン語音声アシスタントの開発に使用

🚀 NVIDIA Conformer-CTC Large (es)

このモデルは、スペースを含む小文字のスペイン語アルファベットで音声を文字起こしします。1340時間のスペイン語音声からなる複合データセットで学習されています。Conformerの非自己回帰型の「大規模」バリアントで、約1億2000万のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。また、本番環境のサーバーデプロイメント用のNVIDIA Rivaと互換性があります。

| | | | |

🚀 クイックスタート

このモデルはNeMoツールキット [3] で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでの微調整に使用できます。

モデルを学習、微調整、または試すには、NVIDIA NeMo をインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをお勧めします。

pip install nemo_toolkit['all']

✨ 主な機能

スペースを含む小文字のスペイン語アルファベットでの音声文字起こし
1340時間のスペイン語音声からなる複合データセットで学習
Conformerの非自己回帰型の「大規模」バリアント
約1億2000万のパラメータ
NVIDIA Rivaとの互換性

📦 インストール

モデルを使用するには、以下のコマンドでNeMoツールキットをインストールします。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_es_conformer_ctc_large")

高度な使用法

Pythonを使用した文字起こし

まず、サンプル音声ファイルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードで文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_es_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

入力

このモデルは、16000 kHzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた文字列を提供します。

モデルアーキテクチャ

Conformer-CTCモデルは、自動音声認識用のConformerモデル [1] の非自己回帰型バリアントで、Transducerの代わりにCTC損失/デコードを使用しています。このモデルの詳細については、Conformer-CTC Model を参照してください。

学習

これらのモデルは、NeMoツールキット [3] を使用して数百エポック以上学習されました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用して学習されました。

これらのモデルのトークナイザーは、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されました。

ニューラルリスコアラーとして使用される言語モデルのチェックポイントは、ここで見つけることができます。ASRモデルの言語モデルを学習および使用する方法の詳細については、ASR Language Modeling を参照してください。

データセット

このコレクションのすべてのモデルは、1340時間のスペイン語音声からなる複合データセット（NeMo ASRSET）で学習されています。

Mozilla Common Voice 7.0（スペイン語） - データクリーニング後289時間
Multilingual LibriSpeech（スペイン語） - データクリーニング後801時間
Voxpopuli transcribed subset（スペイン語） - データクリーニング後110時間
Fisher dataset（スペイン語） - データクリーニング後140時間

性能

このコレクションで利用可能なモデルのリストを以下の表に示します。ASRモデルの性能は、貪欲デコードによる単語誤り率（WER%）で報告されています。

Version	Tokenizer	Vocabulary Size	MCV 7.0 Dev	MCV 7.0 Test	MLS Dev	MLS Test	Voxpopuli Dev	Voxpopuli Test	Fisher Dev	Fisher Test	Train Dataset
1.8.0	SentencePiece Unigram	1024	6.3	6.9	4.3	4.2	6.1	7.5	18.3	18.5	NeMo ASRSET 2.0

NVIDIA Riva でデプロイする場合、このモデルを外部の言語モデルと組み合わせることで、WERをさらに改善することができます。最新モデルの異なる言語モデリング手法によるWER（%）を以下の表に示します。

Language Modeling	Training Dataset	MCV 7.0 Dev	MCV 7.0 Test	MLS Dev	MLS Test	Voxpopuli Dev	Voxpopuli Test	Fisher Dev	Fisher Test	Comment
N-gram LM	Spanish News Crawl corpus (50M sentences) + NeMo ASRSET training transcripts	5.0	5.5	3.6	3.6	5.5	6.7	17.4	17.5	N=4, beam_width=128, n_gram_alpha=0.8, n_gram_beta=1.5