stt_ru_fastconformer_hybrid_large_pcオープンソースのロシア語音声認識モデル

ホーム

Stt Ru Fastconformer Hybrid Large Pc

nvidiaによって開発

これはロシア語自動音声認識のためのFastConformerハイブリッドモデルで、TransducerとCTCデコーダーを組み合わせ、パラメータ規模は約1.15億です。

音声認識

PyTorch

その他#ロシア語音声認識 #ハイブリッドTransducer-CTC #高精度WER

ダウンロード数 6,513

リリース時間 : 5/26/2023

モデル概要

このモデルは大文字小文字のロシア語アルファベット、スペース、基本的な句読点を含む音声を転写でき、ロシア語音声認識タスクに適しています。

モデル特徴

ハイブリッドトレーニングアーキテクチャ

TransducerとCTCの2つの損失関数を同時に使用してトレーニングし、モデルの堅牢性を向上

最適化されたFastConformer

8倍の深さ分離可能な畳み込みダウンサンプリングを採用した最適化Conformerアーキテクチャで、処理効率を向上

マルチデータセットトレーニング

1840時間のロシア語音声を含む複合データセットでトレーニングし、様々な音声シナリオをカバー

モデル能力

ロシア語音声認識

句読点予測

大文字小文字認識

使用事例

音声転写

ロシア語音声からテキストへ

ロシア語音声コンテンツをテキスト形式に変換

Common Voice 12.0テストセットでWER5.3を達成

音声アシスタント

ロシア語音声コマンド認識

ロシア語音声コマンドを認識・理解

Golos crowdテストセットでWER1.9の低さ

🚀 NVIDIA FastConformer-Hybrid Large (ru)

このモデルは、自動音声認識を行うためのもので、ロシア語の音声を文字起こしすることができます。FastConformerという最適化されたモデル構造を用いており、TransducerとCTCの2つの損失関数を用いて学習されています。

| | |

🚀 クイックスタート

このモデルを使用するには、まずNVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後、以下のコマンドを実行してください。

pip install nemo_toolkit['all']

✨ 主な機能

ロシア語の音声を文字起こしすることができます。
大文字と小文字、スペース、ピリオド、カンマ、疑問符を含む文字列を出力します。
FastConformerという最適化されたモデル構造を用いています。
TransducerとCTCの2つの損失関数を用いて学習されています。

📦 インストール

モデルをトレーニング、ファインチューニング、または使用するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後、以下のコマンドを実行してください。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ru_fastconformer_hybrid_large_pc")

高度な使用法

サンプル音声ファイルの取得

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

音声の文字起こし

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

Transducerモードでの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

CTCモードでの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 ドキュメント

入力

このモデルは、16000 Hzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。

🔧 技術詳細

モデルアーキテクチャ

FastConformer [1] は、Conformerモデルの最適化されたバージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、結合TransducerとCTCデコーダ損失を用いたマルチタスク設定でトレーニングされています。FastConformerの詳細については、Fast-Conformer Model および Hybrid Transducer-CTC を参照してください。

トレーニング

NeMoツールキット [3] を使用して、数百エポック以上にわたってモデルをトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。

これらのモデルのトークナイザーは、トレーニングセットのテキストトランスクリプトを使用して、このスクリプトを用いて構築されました。

データセット

このコレクションのすべてのモデルは、1840時間のロシア語音声からなる複合データセット（NeMo PnC ASRSET）でトレーニングされています。

Golos (1200時間)
Sova (310時間)
Dusha (200時間)
RULS (92.5時間)
MCV12 (36.7時間)

性能

自動音声認識モデルの性能は、単語誤り率（Word Error Rate）を使用して測定されます。このデータセットは複数のドメインとはるかに大きなコーパスでトレーニングされているため、一般的に音声の文字起こしにおいてより良い性能を発揮します。

以下の表は、このコレクションで利用可能なモデルの性能をTransducerデコーダでまとめたものです。ASRモデルの性能は、貪欲復号化による単語誤り率（WER%）で報告されています。

a) 句読点と大文字を含まないデータでのTransducerデコーダの性能

Version	Tokenizer	Vocabulary Size	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST	GOLOS TEST FARFIELD	GOLOS TEST CROWD	DUSHA TEST
1.18.0	SentencePiece Unigram	1024	4.4	5.3	11.04	11.05	5.76	1.9	4.01

b) 句読点と大文字を含むデータでのTransducerデコーダの性能

Version	Tokenizer	Vocabulary Size	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST
1.18.0	SentencePiece Unigram	1024	6.14	7.3	26.78	30.81

制限事項

このモデルは公開されている音声データセットでトレーニングされているため、モデルがトレーニングされていない技術用語や方言を含む音声に対しては、性能が低下する可能性があります。また、アクセントのある音声に対しても性能が低下する場合があります。このモデルは '.', ',', '?' の句読点のみを出力するため、他の句読点も期待されるシナリオではうまく機能しない可能性があります。