パラケット CTC 1.1Bオープンソース音声認識モデル - 英語音声の高精度な文字起こしを無料で実現

ホーム

Parakeet Ctc 1.1b

nvidiaによって開発

Parakeet CTC 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャを基に約11億のパラメータを持ち、英語音声の転写をサポートします。

音声認識

PyTorch

英語#大規模音声認識 #FastConformerアーキテクチャ #マルチドメイン適応

ダウンロード数 14.78k

リリース時間 : 12/28/2023

モデル概要

このモデルは自動音声認識（ASR）システムで、音声を小文字の英語テキストに変換できます。最適化されたFastConformerアーキテクチャとCTC損失関数を使用してトレーニングされています。

モデル特徴

大規模トレーニングデータ

64K時間の英語音声データでトレーニングされており、40K時間のプライベートデータと24K時間の公開データセットを含みます

最適化されたFastConformerアーキテクチャ

8倍の深さ分離可能な畳み込みダウンサンプリングを採用したConformerの最適化バージョンで、処理効率を向上させています

マルチドメイン適応性

会議音声、電話音声、公開スピーチなど、さまざまな音声データセットで優れた性能を発揮します

モデル能力

英語音声認識

音声転写

音声からテキストへの変換

使用事例

音声転写

会議議事録

ビジネス会議の内容を自動的に転写

AMI会議テストセットでWERが15.62

電話録音の転写

電話通話の内容をテキストに変換

Switchboardデータセットで良好な性能

メディア処理

ポッドキャスト転写

ポッドキャスト番組の原稿を自動生成

LibriSpeechテストセットでWERが1.83-3.54と低い

ビデオ字幕生成

ビデオコンテンツの字幕を自動生成

VoxPopuliテストセットでWERが6.53

🚀 Parakeet CTC 1.1B (en)

parakeet-ctc-1.1b は、英語の音声を小文字のアルファベットで文字起こしする自動音声認識（ASR）モデルです。このモデルは、NVIDIA NeMo と Suno.ai のチームによって共同開発されました。FastConformer CTC [1] のXXLバージョン（約11億パラメータ）のモデルです。詳細なアーキテクチャについては、モデルアーキテクチャセクションと NeMoドキュメントを参照してください。

| |

🚀 クイックスタート

NVIDIA NeMoのインストール

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMo をインストールする必要があります。最新バージョンのPyTorchをインストールした後に、以下のコマンドでインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの使用方法

このモデルは、NeMoツールキット [3] で使用可能であり、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして使用できます。

モデルの自動インスタンス化

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

Pythonを使用した文字起こし

まず、サンプル音声ファイルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコマンドで文字起こしを行います。

asr_model.transcribe(['2086-149220-0033.wav'])

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネルの音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた文字列を出力します。

✨ 主な機能

モデルアーキテクチャ

FastConformer [1] は、Conformerモデルの最適化バージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、CTC損失を使用してトレーニングされています。FastConformerの詳細については、Fast-Conformer Model を参照してください。