stt_en_fastconformer_transducer_largeオープンソース音声認識モデル - 無料で英語の音声を正確にテキストに変換

ホーム

Stt En Fastconformer Transducer Large

nvidiaによって開発

これはFastConformerアーキテクチャに基づく大規模な自動音声認識(ASR)モデルで、英語音声をテキストに転写するために特別に設計されています。

音声認識

PyTorch

英語#高精度音声認識 #多分野適応 #FastConformerアーキテクチャ

ダウンロード数 1,398

リリース時間 : 6/8/2023

モデル概要

このモデルは最適化されたFastConformerアーキテクチャとTransducerデコーダーを採用し、英語音声を効率的かつ正確にテキストに変換できます。

モデル特徴

最適化されたFastConformerアーキテクチャ

8倍の深さ分離可能畳み込みダウンサンプリングを採用し、標準Conformerモデルよりも効率的

複数データセットでのトレーニング

数千時間の英語音声を含む総合データセットでトレーニングされ、様々な音声シナリオをカバー

高性能

LibriSpeechテストセットでWER1.8%など、複数の標準テストセットで優れた性能を発揮

使いやすさ

音声転写のためのシンプルなPython APIを提供し、バッチ処理をサポート

モデル能力

英語音声認識

音声転写

バッチ音声処理

使用事例

音声転写

会議議事録

会議録音を自動的に文字起こし

メディア字幕生成

動画やポッドキャストコンテンツの字幕を自動生成

音声分析

カスタマーサポート会話分析

カスタマーサポート電話の内容を転写・分析

🚀 NVIDIA FastConformer-Transducer Large (en)

このモデルは、英語の音声を小文字のアルファベットで文字起こしします。FastConformer Transducerの「ラージ」バージョン（約1億1400万個のパラメータ）です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

🚀 クイックスタート

NVIDIA NeMo: トレーニング

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPytorchをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

このモデルの使用方法

このモデルは、NeMoツールキット[3]で使用でき、推論や他のデータセットでのファインチューニングのための事前学習済みチェックポイントとして使用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_transducer_large")

高度な使用法

Pythonを使用した文字起こし

まず、サンプルを取得しましょう。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のように実行します。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

多数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_fastconformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネル音声（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して、文字起こしされた音声を文字列として提供します。

✨ 主な機能

モデルアーキテクチャ

FastConformer [1]は、Conformerモデルの最適化バージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、Transducerデコーダ損失を用いたマルチタスク設定でトレーニングされています。FastConformerの詳細については、Fast-Conformer Modelを参照してください。