stt_en_conformer_transducer_xlargeオープンソース英語音声転写モデル - 英語音声の高精度な識別を効率的に実現

ホーム

Stt En Conformer Transducer Xlarge

nvidiaによって開発

これはNVIDIAが開発した自動音声認識(ASR)モデルで、Conformer-Transducerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の転写専用に設計されています。

音声認識

PyTorch

英語#高精度音声認識 #複数データセット訓練 #英語音声転写

ダウンロード数 496

リリース時間 : 6/13/2022

モデル概要

このモデルは音声を小文字の英字、スペース、アポストロフィを含めて転写し、Conformer-Transducerモデルの'超大'バージョンです。

モデル特徴

高性能音声認識

LibriSpeech cleanテストセットでWER1.62%など、複数のテストセットで優れた性能を発揮

大規模訓練データ

数千時間の英語音声を含む複合データセット(NeMo ASRSET)で訓練

多様な音声形式対応

16KHzモノラル音声(wavファイル)を入力として受け付け

モデル能力

英語音声認識

音声転写

自動音声テキスト変換

使用事例

音声転写

会議議事録

会議録音を自動的に文字記録に転写

高精度な転写結果

音声メモ変換

音声メモを検索可能なテキストに変換

音声アシスタント

音声コマンド認識

スマートデバイス向け音声コマンド認識システム

🚀 NVIDIA Conformer-Transducer X-Large (en-US)

このモデルは、英語の音声を小文字のアルファベット、スペース、アポストロフィで文字起こしします。Conformer-Transducerの「Extra-Large」バージョン（約6億パラメータ）です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

✨ 主な機能

英語の音声を小文字のアルファベット、スペース、アポストロフィで文字起こしする機能。
Conformer-Transducerの「Extra-Large」バージョン（約6億パラメータ）。

📦 インストール

モデルをトレーニング、ファインチューニングするには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

（エラーが発生した場合）: 
pip install nemo_toolkit[all]

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_en_conformer_transducer_xlarge")

高度な使用法

サンプルの取得

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

文字起こし

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_conformer_transducer_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"