stt_rw_conformer_transducer_largeオープンソースモデル - ルワンダ語の音声文字変換機能を無料でデプロイする

ホーム

Stt Rw Conformer Transducer Large

nvidiaによって開発

これはルワンダ語の音声認識に使用されるConformer-Transducerの大型モデルで、音声を小文字のラテン文字に文字起こしでき、空白とアポストロフィをサポートします。

音声認識その他#ルワンダ語音声認識 #非自己回帰大規模モデル #Conformerアーキテクチャ

ダウンロード数 116

リリース時間 : 7/31/2022

モデル概要

このモデルは、空白とアポストロフィを含む小文字のラテン文字に音声を文字起こしするために使用され、約2000時間のルワンダ語音声データで学習されています。

モデル特徴

高精度な文字起こし

音声を小文字のラテン文字に正確に文字起こしでき、空白とアポストロフィをサポートします。

大型モデルアーキテクチャ

Conformerに基づく非自己回帰の「大型」バリエーションで、パラメータが約1.2億あり、性能が強力です。

使いやすさ

NeMoツールキットで使用でき、推論と微調整が容易です。

モデル能力

音声認識

音声文字起こし

ルワンダ語のサポート

使用事例

音声文字起こし

音声ファイルの文字起こし

ルワンダ語の音声ファイルをテキストに文字起こしする

精度が比較的高く、テストセットのWERは16.19%です。

🚀 NVIDIA Conformer-Transducer Large (Kinyarwanda)

このモデルは、音声を空白とアポストロフィを含む小文字のラテン文字に変換するために使用されます。約2000時間のルワンダ語の音声データで訓練されています。これはConformerの非自己回帰型の「大型」バリアントで、約1.2億個のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

このモデルはNeMoツールキット[3]で使用でき、推論用の事前学習チェックポイントとして、または他のデータセットでの微調整に使用できます。

このモデルを訓練、微調整、または使用するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPyTorchをインストールした後にインストールすることをおすすめします。

pip install nemo_toolkit['all']

✨ 主な機能

音声を小文字のラテン文字に正確に変換し、空白とアポストロフィをサポートします。
Conformerの非自己回帰型の「大型」バリアントに基づいており、約1.2億個のパラメータを持ち、高性能です。
NeMoツールキットで使用でき、推論と微調整が容易です。

📦 インストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

モデルを自動的にインスタンス化します。

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_rw_conformer_transducer_large")

高度な使用法

単一の音声ファイルを変換する

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数の音声ファイルを変換する

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_rw_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

モデルアーキテクチャ

Conformer-Transducerモデルは、自動音声認識用のConformerモデル[1]の自己回帰型バリアントで、Transducer損失/デコードを使用しています。このモデルの詳細情報は、Conformer-Transducerモデルで見つけることができます。

訓練

NeMoツールキット[3]を使用して、モデルを数百エポック訓練します。これらのモデルは、サンプルスクリプトと基本設定を使用して訓練されます。

私たちが使用する語彙は28文字で構成されています。

[' ', "'", 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']

前処理では、変音符付きの希少な記号が置き換えられます。

これらのモデルのトークナイザーは、訓練セットのテキスト変換を使用して、スクリプトによって構築されます。語彙サイズが1024の場合、最大サブワード長を4文字に制限して、語彙がデータセット固有の一般的な単語で溢れないようにします。これはモデル性能に影響を与えず、トークナイザーを再訓練することなく他のドメインに適応する可能性があります。

完全な設定は.nemoファイルで見つけることができます。