NVIDIA FastConformer-Hybrid Large (ua)オープンソースモデル - ウクライナ語の音声認識を効率的に実現

ホーム

Stt Ua Fastconformer Hybrid Large Pc

nvidiaによって開発

NVIDIA FastConformer-Hybrid Large (ua) はウクライナ語の音声認識に使用される混合モデルで、TransducerとCTCの2種類の損失関数を組み合わせて訓練され、パラメータは約1億1500万です。

音声認識 #ウクライナ語音声の音訳 #混合損失訓練 #FastConformerアーキテクチャ

ダウンロード数 381

リリース時間 : 5/15/2023

モデル概要

このモデルはウクライナ語の音声を大文字と小文字、スペース、ピリオド、カンマ、疑問符を含むテキストに変換でき、音声認識タスクに適しています。

モデル特徴

混合モデル訓練

TransducerとCTCの2種類の損失関数を組み合わせて訓練し、モデルの性能を向上させます。

句読点のサポート

出力テキストには大文字と小文字のアルファベットと一般的な句読点（ピリオド、カンマ、疑問符）が含まれます。

効率的なアーキテクチャ

FastConformerアーキテクチャを採用し、計算効率を最適化します。

モデル能力

ウクライナ語音声認識

句読点生成

大文字と小文字の変換

使用事例

音声文字起こし

音声ファイルの文字起こし

ウクライナ語の音声ファイルをテキストに変換します。

句読点と大文字小文字を含むテキストが出力されます。

複数ファイルの一括処理

複数音声ファイルの一括文字起こし

複数の音声ファイルを一括で処理でき、効率が向上します。

🚀 NVIDIA FastConformer-Hybrid Large (ua)

このモデルは、大文字と小文字のウクライナ語アルファベットを含む音声を、スペース、ピリオド、コンマ、疑問符とともに文字起こしします。FastConformer Transducer - CTCの「大規模」バージョン（約1億1500万のパラメータ）で、Transducer（デフォルト）とCTCの2つの損失関数で訓練されたハイブリッドモデルです。

| | |

🚀 クイックスタート

このモデルを使用するには、まずNVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、以下のコマンドを実行してください。

pip install nemo_toolkit['all']

✨ 主な機能

ウクライナ語の音声を文字起こしすることができます。
大文字と小文字のウクライナ語アルファベット、スペース、ピリオド、コンマ、疑問符を認識します。
FastConformer Transducer - CTCの大規模バージョンで、高精度な文字起こしが可能です。

📦 インストール

このモデルを使用するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、以下のコマンドを実行してください。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ua_fastconformer_hybrid_large_pc")

高度な使用法

音声ファイルのダウンロード

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

文字起こしの実行

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし（Transducerモード）

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

複数の音声ファイルの文字起こし（CTCモード）

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 ドキュメント

モデルアーキテクチャ

FastConformer [1]は、8倍の深さ方向分離畳み込みダウンサンプリングを備えたConformerモデルの最適化バージョンです。このモデルは、TransducerとCTCのデコーダ損失を用いたマルチタスク設定で訓練されています。詳細については、Fast-Conformer ModelとHybrid Transducer-CTCを参照してください。

訓練

このモデルは、NeMoツールキット [3]を使用して数百エポック以上訓練されています。訓練には、このスクリプトとこのベースコンフィグが使用されています。

トークナイザーは、訓練セットのテキストトランスクリプトを使用して、このスクリプトで構築されています。

データセット

このコレクションのすべてのモデルは、153時間のウクライナ語音声からなる複合データセット（NeMo PnC ASRSET）で訓練されています。

MCV12 (70時間)
M-AILabs (83時間)

性能

自動音声認識モデルの性能は、単語誤り率（Word Error Rate）で測定されます。このデータセットは複数のドメインとより大規模なコーパスで訓練されているため、一般的に音声の文字起こしにおいて良好な性能を発揮します。

以下の表は、このコレクションで利用可能なモデルの性能をTransducerデコーダでまとめたものです。ASRモデルの性能は、貪欲復号化による単語誤り率（WER%）で報告されています。

a) 句読点と大文字を含まないデータでのTransducerデコーダの性能

Version	Tokenizer	Vocabulary Size	MCV12 TEST
1.0.2	SentencePiece Unigram	512	5.66

b) 句読点と大文字を含むデータでのTransducerデコーダの性能

Version	Tokenizer	Vocabulary Size	MCV12 TEST
1.0.2	SentencePiece Unigram	512	8.06

制限事項

このモデルは公開されている音声データセットで訓練されているため、技術用語やモデルが訓練されていない方言を含む音声に対しては性能が低下する可能性があります。また、アクセントのある音声に対しても性能が低下する場合があります。このモデルは、'.', ',', '?' の句読点のみを出力するため、他の句読点も必要なシナリオではうまく機能しない可能性があります。