オープンソースのNVIDIAストリーミングCitrinet 1024モデル - 英語の自動音声認識を無料でデプロイ

ホーム

Stt En Citrinet 1024 Gamma 0 25

nvidiaによって開発

NVIDIAストリーミングCitrinet 1024は、英語の自動音声認識のための非自己回帰モデルで、CTC損失/デコードに基づき、約1.4億のパラメータを持っています。

音声認識

PyTorch

英語#ストリーミング音声認識 #低単語誤り率 #複数データセットでのトレーニング

ダウンロード数 156

リリース時間 : 6/24/2022

モデル概要

このモデルは、スペースやアポストロフィを含む小文字の英語アルファベット音声を書き起こすために使用され、数千時間の英語音声データでトレーニングされています。これはストリーミングCitrinetの「大規模」な非自己回帰バリアントです。

モデル特徴

ストリーミング処理能力

ストリーミング音声認識をサポートし、リアルタイムアプリケーションに適しています

高性能

LibriSpeechテストセットでWERが3.4-7.6と、複数の標準テストセットで優れた性能を発揮

大規模トレーニングデータ

LibriSpeech、Fisherなど数千時間の英語音声データに基づいてトレーニング

Riva互換

NVIDIA Rivaと統合可能で、プロダクションレベルのサーバー展開に使用可能

モデル能力

英語音声認識

リアルタイム音声書き起こし

バッチ音声処理

使用事例

音声からテキストへ

会議議事録

会議録音を自動的にテキスト記録に変換

高精度な書き起こし結果

字幕生成

ビデオコンテンツに自動的に英語字幕を生成

バッチ音声ファイル処理をサポート

音声アシスタント

音声コマンド認識

スマートデバイスの音声コマンド認識システムに使用

低遅延のリアルタイム認識

🚀 NVIDIA Streaming Citrinet 1024 (en-US)

このモデルは、スペースとアポストロフィを含む小文字の英語アルファベットで音声を文字起こしします。数千時間の英語音声データで学習されています。ストリーミングCitrinetの非自己回帰型の「大規模」バリアントで、約1億4000万のパラメータを持っています。詳細なアーキテクチャ情報については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。また、本番環境向けのサーバーデプロイメントには、NVIDIA Rivaと互換性があります。

| | | | |

🚀 クイックスタート

このモデルはNeMoツールキット [3] で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでの微調整に使用できます。

モデルを学習、微調整、または試すには、NVIDIA NeMo をインストールする必要があります。最新のPyTorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

✨ 主な機能

英語の音声を文字起こしすることができます。
非自己回帰型のモデルで、ストリーミング処理が可能です。
NVIDIA Rivaと互換性があり、本番環境でのデプロイが容易です。

📦 インストール

モデルを使用するには、NeMoツールキットをインストールする必要があります。以下のコマンドを実行してください。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_en_citrinet_1024_gamma_0_25")

高度な使用法

Pythonを使用した文字起こし

まず、サンプル音声ファイルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードを実行して文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_citrinet_1024_gamma_0_25" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"