stt_ru_conformer_transducer_largeオープンソースのロシア語音声認識モデル

ホーム

Stt Ru Conformer Transducer Large

nvidiaによって開発

これはConformerアーキテクチャに基づく非自己回帰型の大型ロシア語音声認識モデルで、パラメータは約1.2億、訓練データは約1636時間のロシア語音声です。

音声認識その他#ロシア語音声認識 #非自己回帰アーキテクチャ #複数データセット訓練

ダウンロード数 537

リリース時間 : 10/24/2022

モデル概要

このモデルはロシア語の音声を空白を含む小文字のキリル文字に文字起こしでき、ロシア語音声認識タスクに適しています。

モデル特徴

複数データセット訓練

複数のロシア語音声データセットで訓練されており、Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech、SOVA-Datasetなどが含まれます。

非自己回帰アーキテクチャ

Conformerの非自己回帰型の「大型」バリエーションを採用し、約1.2億個のパラメータがあります。

使いやすい

NeMoツールキットで使用でき、モデルの自動インスタンス化と音声の文字起こしをサポートします。

モデル能力

ロシア語音声認識

音声文字起こし

音声をテキストに変換

使用事例

音声文字起こし

ロシア語音声文字起こし

ロシア語の音声をテキストに変換

精度が高く、MCV 10.0テストセットでのWERは4.0%です。

🚀 NVIDIA Conformer-Transducer Large (Russian)

このモデルは、音声を空白を含む小文字のキリル文字に文字起こしし、約1636時間のロシア語の音声データで学習されています。Conformerの非自己回帰型の「大規模」バリアントで、約1億2000万のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

このモデルはNeMoツールキット [3] で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでの微調整に使用できます。

モデルを学習、微調整、または試すには、NVIDIA NeMo をインストールする必要があります。最新バージョンのPyTorchをインストールした後にインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの自動インスタンス化

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_ru_conformer_transducer_large")

Pythonを使用した文字起こし

以下のように簡単に行えます。

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

多数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16 kHzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

✨ 主な機能

Conformer-Transducerモデルは、Transducer損失/デコードを使用する自動音声認識用のConformerモデル [1] の自己回帰型バリアントです。このモデルの詳細については、Conformer-Transducer Model で詳しく説明されています。

📦 インストール

モデルを使用するには、NeMoツールキットをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_ru_conformer_transducer_large")
output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

高度な使用法

多数の音声ファイルを文字起こしする場合:

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

モデルアーキテクチャ

Conformer-Transducerモデルは、自動音声認識用のConformerモデルの自己回帰型バリアントで、Transducer損失/デコードを使用しています。詳細については、Conformer-Transducer Model を参照してください。

学習

NeMoツールキット [3] を使用して、数百エポック以上の学習を行いました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用して学習されています。

使用する語彙は33文字で構成されています。

[' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я']