Parakeet RNNT 0.6Bオープンソース音声認識モデル - 英語の音声を文字に変換する無料デプロイ

Parakeet Rnnt 0.6b

nvidiaによって開発

Parakeet RNNT 0.6B は、NVIDIA NeMo と Suno.ai が共同開発した自動音声認識モデルで、FastConformer アーキテクチャを基にし、約6億のパラメータを持ち、英語音声をテキストに転写するために特別に設計されています。

音声認識

PyTorch

英語#大語彙音声認識 #多分野適応 #FastConformerアーキテクチャ

ダウンロード数 92.27k

リリース時間 : 12/28/2023

モデル概要

このモデルは高性能な自動音声認識システムで、英語音声を小文字の英語テキストに正確に変換できます。多くの公開および非公開データセットで訓練されており、幅広い音声認識シナリオに適用可能です。

モデル特徴

高性能 FastConformer アーキテクチャ

最適化された FastConformer アーキテクチャを採用し、8倍の深さ分離可能な畳み込みダウンサンプリングを備え、効率的な音声認識能力を提供します。

大規模訓練データ

64K時間の英語音声データで訓練されており、さまざまな公開および非公開データセットを含むため、モデルの広範な適用性が保証されています。

マルチタスク訓練

トランスフォーマーデコーダー (RNNT) 損失を使用したマルチタスク訓練により、モデルの認識精度が向上しました。

モデル能力

英語音声認識

高精度テキスト転写

複数の音声フォーマットをサポート

使用事例

音声からテキストへ

会議議事録

会議の録音を自動的に転写し、文字記録を生成します。

AMI会議テストセットで WER 17.55

音声アシスタント

音声アシスタントに正確な音声認識能力を提供します。

LibriSpeechテストセットで WER 1.63-3.06

メディア字幕生成

ビデオやオーディオコンテンツの字幕を自動生成します。

TEDLIUM-v3で WER 3.86

🚀 Parakeet RNNT 0.6B (en)

parakeet-rnnt-0.6bは、英語の音声を小文字のアルファベットで文字起こしする自動音声認識（ASR）モデルです。このモデルは、NVIDIA NeMoとSuno.aiのチームによって共同開発されました。FastConformer Transducer [1] のXLバージョン（約6億パラメータ）のモデルです。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| |

🚀 クイックスタート

NVIDIA NeMoのインストール

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPyTorchをインストールした後に、以下のコマンドを実行してインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの使用方法

このモデルはNeMoツールキット [3] で使用でき、推論や他のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

音声ファイルの文字起こし

まず、サンプル音声ファイルをダウンロードします。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードで文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネルの音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた文字列を出力します。

✨ 主な機能

英語の音声を高精度に文字起こしします。
FastConformer Transducerアーキテクチャを採用し、効率的な音声認識を実現します。
NeMoツールキットを使用して、トレーニングやファインチューニングが容易です。

📦 インストール

モデルを使用するには、NVIDIA NeMoをインストールする必要があります。以下のコマンドを実行してインストールしてください。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

高度な使用法

複数の音声ファイルを一度に文字起こしする場合の例です。

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

モデルアーキテクチャ

FastConformer [1] は、Conformerモデルの最適化されたバージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、Transducerデコーダ（RNNT）損失を用いたマルチタスク設定でトレーニングされています。FastConformerの詳細については、Fast-Conformer Modelを参照してください。

トレーニング

NeMoツールキット [3] を使用して、数百エポック以上にわたってモデルをトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。

これらのモデルのトークナイザーは、トレーニングセットのテキストトランスクリプトを使用して、このスクリプトで構築されています。

データセット

このモデルは、NVIDIA NeMoとSunoチームによって収集および準備された64,000時間の英語の音声でトレーニングされています。

トレーニングデータセットは、40,000時間の英語の音声を含むプライベートサブセットと、以下の公開データセットからの24,000時間の音声で構成されています。

Librispeech：960時間の英語の音声
Fisher Corpus
Switchboard-1 Dataset
WSJ-0およびWSJ-1
National Speech Corpus（Part 1、Part 6）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
Multilingual Librispeech（MLS EN） - 2,000時間のサブセット
Mozilla Common Voice（v7.0）
People's Speech - 12,000時間のサブセット

🔧 技術詳細

パフォーマンス

自動音声認識モデルのパフォーマンスは、単語誤り率（Word Error Rate）を使用して測定されます。このデータセットは複数のドメインとより大規模なコーパスでトレーニングされているため、一般的に音声の文字起こしにおいて良好なパフォーマンスを発揮します。

以下の表は、このコレクション内の利用可能なモデルのパフォーマンスを、Transducerデコーダを使用して要約したものです。ASRモデルのパフォーマンスは、貪欲復号化による単語誤り率（WER%）で報告されています。

Version	Tokenizer	Vocabulary Size	AMI	Earnings-22	Giga Speech	LS test-clean	SPGI Speech	TEDLIUM-v3	Vox Populi	Common Voice
1.22.0	SentencePiece Unigram	1024	17.55	14.78	10.07	1.63	3.06	3.47	3.86	6.05

これらは外部言語モデルを使用しない貪欲WERの数値です。評価の詳細については、HuggingFace ASR Leaderboardを参照してください。

NVIDIA Rivaによるデプロイメント

NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声AI SDKです。

また、Rivaは以下の機能を提供します。

数十万時間のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントを使用して、最も一般的な言語に対して世界クラスの精度を提供します。
ランタイムでの単語ブースト（例：ブランド名や製品名）や、音響モデル、言語モデル、および逆テキスト正規化のカスタマイズにより、最高クラスの精度を実現します。
ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポートを提供します。

このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらで確認できます。Rivaのライブデモもご覧ください。