NVIDIA FastConformer-Transducerオープンソースモデル - 英語音声認識用の高性能ツール

Stt En Fastconformer Transducer Xlarge

nvidiaによって開発

NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。

音声認識

PyTorch

英語#高精度音声認識 #多分野適応 #FastConformerアーキテクチャ

ダウンロード数 106

リリース時間 : 6/12/2023

モデル概要

このモデルは音声を小文字の英字に変換し、FastConformer Transducerモデルの'超大'バージョンで、複数の英語音声データセットで訓練され、優れた認識精度を有します。

モデル特徴

最適化されたFastConformerアーキテクチャ

8倍の深さ分離可能な畳み込みダウンサンプリングを採用した最適化Conformerアーキテクチャで、処理効率を向上

複数データセット訓練

数千時間の英語音声を含む複合データセットで訓練され、様々な音声シナリオをカバー

高精度

複数のテストセットで優れた性能を発揮し、LibriSpeechテストセットではWERが1.64%と低い

Transducerデコーダ

RNNT損失を使用してマルチタスク設定で訓練され、認識効果を向上

モデル能力

英語音声認識

音声文字起こし

音声からテキストへの変換

使用事例

音声文字起こし

会議議事録

会議録音を自動的に文字起こし

高精度な文字記録、WERは1.64%と低い

音声アシスタント

音声アシスタントに音声認識機能を提供

様々な音声シナリオに対応した正確な認識

メディア処理

動画字幕生成

動画コンテンツに自動的に字幕を生成

様々なアクセントや話し方の認識に対応

🚀 NVIDIA FastConformer-Transducer XLarge (en)

このモデルは、英語の音声を小文字のアルファベットで文字起こしします。FastConformer Transducerの「Extra Large」バージョン（約6億1800万のパラメータ）です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

NVIDIA NeMo: トレーニング

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPytorchをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

このモデルの使い方

このモデルは、NeMoツールキット[3]で使用でき、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_transducer_xlarge")

高度な使用法

Pythonを使用した文字起こし

まず、サンプルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のように実行します。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

多数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_fastconformer_transducer_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

🔧 技術詳細

モデルアーキテクチャ

FastConformer [1]は、Conformerモデルの最適化バージョンで、8倍の深度分離畳み込みダウンサンプリングを備えています。このモデルは、Transducerデコーダ（RNNT）損失を用いたマルチタスク設定でトレーニングされています。FastConformerの詳細については、こちらで詳しく説明されています: Fast-Conformer Model。

トレーニング

NeMoツールキット[3]を使用して、数百エポック以上にわたってモデルがトレーニングされました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。

これらのモデルのトークナイザーは、トレーニングセットのテキストトランスクリプトを使用して、このスクリプトで構築されました。

データセット

このコレクションのモデルは、数千時間の英語音声から構成される複合データセット（NeMo ASRSet En）でトレーニングされています。

Librispeech: 960時間の英語音声
Fisher Corpus
Switchboard-1 Dataset
WSJ-0とWSJ-1
National Speech Corpus (Part 1, Part 6)
VCTK
VoxPopuli (EN)
Europarl-ASR (EN)
Multilingual Librispeech (MLS EN) - 2,000時間のサブセット
Mozilla Common Voice (v7.0)
People's Speech - 12,000時間のサブセット

性能

自動音声認識モデルの性能は、単語誤り率（Word Error Rate）を使用して測定されます。このデータセットは複数のドメインとより大きなコーパスでトレーニングされているため、一般的に音声の文字起こしにおいてより良い性能を発揮します。

以下の表は、このコレクションで利用可能なモデルのTransducerデコーダによる性能をまとめたものです。ASRモデルの性能は、貪欲復号化による単語誤り率（WER%）で報告されています。

属性	详情
バージョン	1.18.0
トークナイザー	SentencePiece Unigram
語彙サイズ	1024
LS test-other	3.07
LS test-clean	1.64
WSJ Eval92	1.11
WSJ Dev93	1.99
NSC Part 1	4.47
MLS Test	4.90
MCV Test 7.0	6.5
トレーニングデータセット	NeMo ASRSET 3.0