stt_zh_citrinet_1024_gamma_0_25オープンソースモデル - 中国語の北京語の自動音声認識を高精度で実現

ホーム

Stt Zh Citrinet 1024 Gamma 0 25

nvidiaによって開発

これは中国語普通話の自動音声認識(ASR)用の非自己回帰Citrinetモデルで、約1.4億のパラメータを持ち、文字エンコーディングスキームとCTC損失/デコードを採用しています。

音声認識

PyTorch

中国語#中国語音声認識 #ストリーミング処理 #低CER

ダウンロード数 92

リリース時間 : 6/28/2022

モデル概要

このモデルは中国語普通話の音声認識のために設計され、Aishell-2データセットでトレーニングされ、16kHzモノラルオーディオをテキストに変換できます。

モデル特徴

非自己回帰アーキテクチャ

Citrinetの非自己回帰アーキテクチャを採用し、TransducerではなくCTC損失/デコードを使用して効率的な音声認識を実現

文字レベルエンコーディング

Aishell-2が提供する標準文字セットを使用した文字レベルエンコーディングで、中国語音声認識に適している

プロダクションレベルデプロイ

NVIDIA Rivaと互換性があり、プロダクションレベルのサーバーデプロイに使用可能

多様なシナリオ適応

iOS、Android、マイクなど様々な録音環境で安定した性能を発揮

モデル能力

中国語音声認識

リアルタイム音声テキスト変換

16kHzモノラルオーディオ入力対応

使用事例

音声書き起こし

会議議事録

中国語会議録音を自動的に文字記録に変換

AIShell-2テストセットでCER5.1-5.5%

音声アシスタント

中国語音声アシスタントに音声認識機能を提供

音声分析

カスタマーサービス録音分析

中国語カスタマーサービス通話内容を自動分析

🚀 NVIDIA Streaming Citrinet 1024 (zh)

このモデルは、自動音声認識（ASR）に特化したもので、Citrinetアーキテクチャを採用しています。約1億4000万のパラメータを持つ大規模モデルで、Aishell-2コーパスを用いて訓練され、中国語の音声認識に高い精度を発揮します。また、NVIDIA Rivaとの互換性も備えており、本番環境でのデプロイにも適しています。

🚀 クイックスタート

このモデルは、NeMoツールキットで使用できます。推論や他のデータセットでの微調整のための事前学習チェックポイントとして利用できます。

モデルを訓練、微調整、または試すには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの自動インスタンス化

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained("nvidia/stt_zh_citrinet_1024_gamma_0_25")

Pythonを使用した文字起こし

まず、中国語の音声サンプルを取得しましょう。

次に、以下のようにします。

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_zh_citrinet_1024_gamma_0_25" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"