stt_ru_conformer_ctc_largeオープンソースモデル - 無料のロシア語自動音声認識、高精度かつ高効率！

ホーム

Stt Ru Conformer Ctc Large

nvidiaによって開発

これはロシア語の自動音声認識用の大規模なConformer-CTCモデルで、約1636時間のロシア語音声データでトレーニングされ、約1.2億のパラメータを持っています。

音声認識

PyTorch

その他#ロシア語音声認識 #高精度WER #マルチシーン適応

ダウンロード数 452

リリース時間 : 11/1/2022

モデル概要

このモデルはロシア語の音声をスペースを含む小文字のキリル文字テキストに変換し、ConformerアーキテクチャとCTC損失関数を使用しており、高品質な音声テキスト変換アプリケーションに適しています。

モデル特徴

高性能ロシア語認識

Common Voice 10.0テストセットでWER4.28%など、複数のロシア語テストセットで優れた性能を発揮

大規模トレーニングデータ

約1636時間のロシア語音声データでトレーニングされ、複数のソースのデータセットを含む

非自己回帰アーキテクチャ

Conformer-CTCアーキテクチャを採用し、効率的な単一フォワード推論を実現

多様なアプリケーションシーンに対応

近距離および遠距離音声認識に適し、crowdやfarfieldシーンでも良好な性能を発揮

モデル能力

ロシア語音声認識

リアルタイム音声テキスト変換

16kHzモノラル音声入力に対応

使用事例

音声文字起こし

会議議事録

ロシア語の会議録音を自動的に文字起こし

高精度な文字起こし結果

音声アシスタント

ロシア語音声アシスタントに音声認識機能を提供

低遅延のインタラクション体験

メディア処理

動画字幕生成

ロシア語の動画コンテンツに自動的に字幕を生成

95%以上の高精度な字幕

🚀 NVIDIA Conformer-CTC Large (Russian)

このモデルは、音声をスペースを含む小文字のキリル文字に文字起こしし、約1636時間のロシア語の音声データで学習されています。Conformerの非自己回帰型の「大型」バリアントで、約1億2000万のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

このモデルは、NeMoツールキット [3] で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでの微調整に使用できます。

モデルを学習、微調整、または試すには、NVIDIA NeMo をインストールする必要があります。最新バージョンのPyTorchをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

✨ 主な機能

音声を小文字のキリル文字に文字起こしする機能
非自己回帰型のConformerモデルで、高速な推論が可能
NeMoツールキットでの使用が可能で、微調整も容易

📦 インストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_ru_conformer_ctc_large")

高度な使用法

単一の音声ファイルを文字起こしする

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数の音声ファイルを文字起こしする

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

入力

このモデルは、16 kHzのモノラルチャンネルの音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。

🔧 技術詳細

モデルアーキテクチャ

Conformer-CTCモデルは、自動音声認識用のConformerモデル [1] の非自己回帰型バリアントで、Transducerの代わりにCTC損失/デコードを使用しています。このモデルの詳細については、Conformer-CTC Model を参照してください。

学習

NeMoツールキット [3] を使用して、数百エポック以上の学習を行いました。これらのモデルは、このサンプルスクリプトとこの基本設定で学習されています。

これらのモデルのトークナイザーは、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されています。

私たちが使用する語彙は33文字で構成されています。

[' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я']