パラケットRNNT 1.1Bオープンソース自動音声認識モデル - 英語音声書き起こしを無料でサポート

Parakeet Rnnt 1.1b

nvidiaによって開発

Parakeet RNNT 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformer Transducerアーキテクチャに基づき、約11億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識

PyTorch

英語#高精度音声認識 #大規模パラメータモデル #多分野適応

ダウンロード数 13.18k

リリース時間 : 12/27/2023

モデル概要

このモデルは英語音声を小文字の英語テキストに変換するために使用され、複数の公開データセットで優れた性能を示します。

モデル特徴

高性能音声認識

複数の公開テストセットでリーディングな単語誤り率(WER)を達成

大規模トレーニングデータ

合計64K時間の英語音声データを使用してトレーニングされ、複数の公開データセットを含む

最適化されたモデルアーキテクチャ

FastConformerアーキテクチャを採用し、8倍の深さ分離可能な畳み込みダウンサンプリングを備える

マルチタスクトレーニング

トランスフォーマーデコーダー(RNNT)損失を使用してマルチタスク設定でトレーニング

モデル能力

英語音声認識

音声書き起こし

自動音声テキスト変換

使用事例

音声書き起こし

会議議事録

会議録音を自動的に書き起こす

AMIテストセットでWER 17.10%

音声テキスト変換サービス

音声コンテンツのテキスト原稿を生成

LibriSpeechテストセットでWER 1.46%

音声アシスタント

音声アシスタントに音声認識機能を提供

Common VoiceテストセットでWER 5.79%

🚀 Parakeet RNNT 1.1B (en)

parakeet-rnnt-1.1bは、英語の音声を小文字のアルファベットで文字起こしする自動音声認識（ASR）モデルです。このモデルは、NVIDIA NeMoとSuno.aiのチームによって共同開発されました。FastConformer Transducer [1] のXXLバージョン（約11億パラメータ）です。詳細なアーキテクチャについては、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

🚀 クイックスタート

NVIDIA NeMo: トレーニング

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPyTorchバージョンをインストールした後に、以下のコマンドでインストールすることをおすすめします。

pip install nemo_toolkit['all']

このモデルの使用方法

このモデルは、NeMoツールキット [3] で使用でき、推論や別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-1.1b")

高度な使用法

Pythonを使用した文字起こし

まず、サンプル音声ファイルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードで文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

多数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

✨ 主な機能

モデルアーキテクチャ

FastConformer [1] は、Conformerモデルの最適化バージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、Transducerデコーダ（RNNT）損失を用いたマルチタスク設定でトレーニングされています。FastConformerの詳細については、Fast-Conformer Modelを参照してください。