NVIDIA FastConformer-CTC XLargeオープンソースモデル - 無料でデプロイして英語の音声を高精度で文字起こしする

ホーム

Stt En Fastconformer Ctc Xlarge

nvidiaによって開発

NVIDIA FastConformer-CTC XLargeは約6億パラメータの自動音声認識(ASR)モデルで、英語音声の文字起こしのために設計され、FastConformerアーキテクチャとCTC損失でトレーニングされています。

音声認識英語#高精度音声認識 #多分野適応 #FastConformerアーキテクチャ

ダウンロード数 216

リリース時間 : 6/12/2023

モデル概要

このモデルは英語音声を小文字テキストに変換でき、複数の公開データセットで優れた性能を発揮し、汎用的な音声文字起こしタスクに適しています。

モデル特徴

最適化されたFastConformerアーキテクチャ

8倍の深さ分離可能な畳み込みダウンサンプリングを採用し、標準Conformerモデルと比べて大幅に最適化されています

複数データセットでのトレーニング

数千時間の英語音声を含む複合データセットでトレーニングされ、様々な分野とアクセントをカバーしています

高性能

LibriSpeechテストセットで1.8%(clean)と3.65%(other)の単語誤り率を達成

モデル能力

英語音声認識

音声文字起こし

16kHzモノラル音声入力に対応

使用事例

音声文字起こし

会議議事録

会議録音を自動的に文字起こし

高精度な文字起こし結果

音声メモ

音声メモを検索可能なテキストに変換

支援技術

リアルタイム字幕生成

動画やライブコンテンツのリアルタイム字幕を生成

🚀 NVIDIA FastConformer-CTC XLarge (en)

このモデルは、英語の音声を小文字のアルファベットで文字起こしします。FastConformer CTCモデルの「Extra Large」バージョン（約6億パラメータ）です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

NVIDIA NeMo: トレーニング

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新バージョンのPytorchをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

このモデルの使用方法

このモデルはNeMoツールキット[3]で使用でき、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして使用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_ctc_xlarge")

高度な使用法

Pythonを使用した文字起こし

まず、サンプルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のようにします。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

多数の音声ファイルを文字起こしする

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_fastconformer_ctc_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 Hzのモノラルチャンネルオーディオ（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

✨ 主な機能

モデルアーキテクチャ

FastConformer [1]は、Conformerモデルの最適化バージョンで、8倍のデプスワイズ分離畳み込みダウンサンプリングが行われます。このモデルはCTC損失を使用してトレーニングされています。FastConformerの詳細については、Fast-Conformer Modelを参照してください。