🚀 NVIDIA Conformer-Transducer Large (Kinyarwanda)
このモデルは、音声を空白とアポストロフィを含む小文字のラテン文字に変換するために使用されます。約2000時間のルワンダ語の音声データで訓練されています。これはConformerの非自己回帰型の「大型」バリアントで、約1.2億個のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。
|
|
| 
🚀 クイックスタート
このモデルはNeMoツールキット[3]で使用でき、推論用の事前学習チェックポイントとして、または他のデータセットでの微調整に使用できます。
このモデルを訓練、微調整、または使用するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPyTorchをインストールした後にインストールすることをおすすめします。
pip install nemo_toolkit['all']
✨ 主な機能
- 音声を小文字のラテン文字に正確に変換し、空白とアポストロフィをサポートします。
- Conformerの非自己回帰型の「大型」バリアントに基づいており、約1.2億個のパラメータを持ち、高性能です。
- NeMoツールキットで使用でき、推論と微調整が容易です。
📦 インストール
このモデルを訓練、微調整、または使用するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPyTorchをインストールした後にインストールすることをおすすめします。
pip install nemo_toolkit['all']
💻 使用例
基本的な使用法
モデルを自動的にインスタンス化します。
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_rw_conformer_transducer_large")
高度な使用法
単一の音声ファイルを変換する
output = asr_model.transcribe(['sample.wav'])
print(output[0].text)
複数の音声ファイルを変換する
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_rw_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
📚 ドキュメント
モデルアーキテクチャ
Conformer-Transducerモデルは、自動音声認識用のConformerモデル[1]の自己回帰型バリアントで、Transducer損失/デコードを使用しています。このモデルの詳細情報は、Conformer-Transducerモデルで見つけることができます。
訓練
NeMoツールキット[3]を使用して、モデルを数百エポック訓練します。これらのモデルは、サンプルスクリプトと基本設定を使用して訓練されます。
私たちが使用する語彙は28文字で構成されています。
[' ', "'", 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
前処理では、変音符付きの希少な記号が置き換えられます。
これらのモデルのトークナイザーは、訓練セットのテキスト変換を使用して、スクリプトによって構築されます。
語彙サイズが1024の場合、最大サブワード長を4文字に制限して、語彙がデータセット固有の一般的な単語で溢れないようにします。これはモデル性能に影響を与えず、トークナイザーを再訓練することなく他のドメインに適応する可能性があります。
完全な設定は.nemo
ファイルで見つけることができます。
データセット
このコレクションのすべてのモデルは、MCV - 9.0ルワンダ語データセットで訓練されています。このデータセットには、約2000時間の訓練用音声オーディオ、32時間の開発用音声オーディオ、および32時間のテスト用音声オーディオが含まれています。
性能
このコレクションで利用可能なモデルのリストを以下の表に示します。自動音声認識(ASR)モデルの性能は、貪欲デコードの単語誤り率(WER%)で報告されます。
バージョン |
トークナイザー |
語彙サイズ |
開発セットWER |
テストセットWER |
訓練データセット |
1.11.0 |
SentencePiece BPE, maxlen = 4 |
1024 |
13.82 |
16.19 |
MCV - 9.0訓練セット |
制限事項
このモデルは公開されている音声データセットで訓練されているため、技術用語やモデルが訓練されていない方言を含む音声に対する性能は低下する可能性があります。アクセントのある音声に対しても、モデルの性能は低下する可能性があります。
NVIDIA Rivaを使用したデプロイ
NVIDIA Rivaは、ローカル、すべてのクラウド、マルチクラウド、ハイブリッドクラウド、エッジ、および組み込みデバイスでのデプロイをサポートする、高速化された音声AI SDKです。
さらに、Rivaは以下を提供します。
- 最も一般的な言語に対する一流の即時精度。モデルチェックポイントは、専用データで数十万時間のGPU計算を行って訓練されています。
- ランタイムでの単語強化(例:ブランドや製品名)、および音響モデル、言語モデル、逆テキスト正規化のカスタマイズを備えた一流の精度。
- ストリーミング音声認識、Kubernetes互換の拡張性、および企業レベルのサポート。
現時点でRivaはこのモデルをサポートしていませんが、サポートされているモデルのリストはこちらです。
Rivaのリアルタイムデモを確認してください。
📄 ライセンス
このモデルはCC - BY - 4.0ライセンスで提供されています。
🔗 参考資料