🚀 NVIDIA Streaming Citrinet 1024 (zh)
このモデルは、自動音声認識(ASR)に特化したもので、Citrinetアーキテクチャを採用しています。約1億4000万のパラメータを持つ大規模モデルで、Aishell-2コーパスを用いて訓練され、中国語の音声認識に高い精度を発揮します。また、NVIDIA Rivaとの互換性も備えており、本番環境でのデプロイにも適しています。
🚀 クイックスタート
このモデルは、NeMoツールキットで使用できます。推論や他のデータセットでの微調整のための事前学習チェックポイントとして利用できます。
モデルを訓練、微調整、または試すには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。
pip install nemo_toolkit['all']
モデルの自動インスタンス化
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained("nvidia/stt_zh_citrinet_1024_gamma_0_25")
Pythonを使用した文字起こし
まず、中国語の音声サンプルを取得しましょう。
次に、以下のようにします。
output = asr_model.transcribe(['sample.wav'])
print(output[0].text)
複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_zh_citrinet_1024_gamma_0_25"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
入力
このモデルは、16000kHzのモノラルチャンネル音声(wavファイル)を入力として受け付けます。
出力
このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。
✨ 主な機能
- 文字符号化方式を利用し、Aishell-2 Mandardコーパスに含まれる標準文字セットのテキストを文字起こしします。
- Citrinetの非自己回帰型の「大規模」バリアントで、約1億4000万のパラメータを持ちます。
- NVIDIA Rivaと互換性があり、本番グレードのサーバーデプロイに対応しています。
📦 インストール
モデルを使用するには、NeMoツールキットをインストールする必要があります。以下のコマンドを実行してください。
pip install nemo_toolkit['all']
📚 ドキュメント
モデルアーキテクチャ
Citrinetモデルは、自動音声認識のための非自己回帰型モデル [1] で、TransducerではなくCTC損失/デコードを使用しています。このモデルの詳細については、Citrinet Model を参照してください。
訓練
NeMoツールキット [3] を使用して、数百エポック以上の訓練を行いました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用して訓練されました。
これらのモデルのトークナイザーは、このスクリプトを使用して、トレーニングセットのテキストトランスクリプトを使用して構築されました。
データセット
このコレクションのすべてのモデルは、数千時間の英語の音声から構成される複合データセット(NeMo ASRSET)で訓練されています。
注: 古いバージョンのモデルは、より小さなデータセットセットで訓練されている場合があります。
パフォーマンス
このコレクションで利用可能なモデルのリストを次の表に示します。ASRモデルのパフォーマンスは、貪欲デコードによる単語誤り率(WER%)で報告されています。
バージョン |
トークナイザー |
語彙サイズ |
Dev iOS |
Test iOS |
Dev Android |
Test Android |
Dev Mic |
Test Mic |
トレーニングデータセット |
1.0.0 |
文字 |
5000+ |
4.8 |
5.1 |
5.2 |
5.5 |
5.2 |
5.5 |
AIShell 2 |
NVIDIA Rivaでデプロイする場合、このモデルを外部言語モデルと組み合わせることで、WERをさらに改善することができます。異なる言語モデリング技術を用いた最新モデルのWER(%)を次の表に示します。
制限事項
このモデルは公開されている音声データセットで訓練されているため、技術用語やモデルが訓練されていない方言を含む音声に対しては、モデルのパフォーマンスが低下する可能性があります。また、アクセントのある音声に対してもパフォーマンスが低下する場合があります。
NVIDIA Rivaでのデプロイ
最高のリアルタイム精度、レイテンシ、スループットを得るには、NVIDIA Rivaでモデルをデプロイしてください。これは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境でデプロイ可能な高速化された音声AI SDKです。
また、Rivaは以下を提供します。
- 数十万のGPUコンピュート時間で独自データで訓練されたモデルチェックポイントを使用した、最も一般的な言語に対する世界クラスの即時精度
- ランタイムの単語ブースト(例:ブランドや製品名)および音響モデル、言語モデル、および逆テキスト正規化のカスタマイズによる最高クラスの精度
- ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポート
Rivaのライブデモをご覧ください。
🔧 技術詳細
モデル情報
属性 |
詳情 |
モデルタイプ |
Citrinet |
トレーニングデータ |
AIShell 2 |
参考資料
ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。