stt_fr_fastconformer_hybrid_large_pcオープンソースフランス語音声認識モデル

ホーム

Stt Fr Fastconformer Hybrid Large Pc

nvidiaによって開発

これはフランス語自動音声認識モデルで、FastConformerアーキテクチャに基づき、TransducerとCTCデコーダを組み合わせており、高い精度とマルチドメイン適応性を備えています。

音声認識

PyTorch

フランス語#フランス語音声認識 #ハイブリッドTransducer-CTC #マルチドメイン高精度

ダウンロード数 1,331

リリース時間 : 5/23/2023

モデル概要

このモデルは、大文字小文字のフランス語アルファベット、スペース、ピリオド、カンマ、疑問符を含む音声を文字起こしできます。FastConformer Transducer-CTCモデルの'大型'バージョンで、約1.15億パラメータです。

モデル特徴

ハイブリッド訓練

TransducerとCTCの2つの損失関数を組み合わせて訓練し、モデルの頑健性を向上

最適化アーキテクチャ

FastConformerアーキテクチャを採用し、8倍の深さ分離可能畳み込みダウンサンプリングで効率化

マルチデータセット訓練

1800時間のフランス語音声データ（MCV12、MLS、Voxpopuliデータセット含む）で訓練

句読点対応

ピリオド、カンマ、疑問符を含むテキストの文字起こしをサポート

モデル能力

フランス語音声認識

句読点認識

大文字小文字認識

長音声処理

使用事例

音声文字起こし

会議議事録

フランス語会議録音を文字記録に変換

WER 7.92 (MCV12テストセット)

音声字幕

フランス語動画コンテンツの字幕生成

WER 5.21 (MLSテストセット)

音声分析

音声データ分析

フランス語音声データのキーワードと内容分析

WER 6.49 (VoxPopuliテストセット)

🚀 NVIDIA FastConformer-Hybrid Large (fr)

このモデルは、大文字と小文字のフランス語アルファベット、空白、ピリオド、コンマ、疑問符を含む音声を文字起こしします。FastConformer Transducer - CTC の「ラージ」バージョン（約1億1500万のパラメータ）で、Transducer（デフォルト）と CTC の2つの損失関数で学習されたハイブリッドモデルです。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMo ドキュメントを参照してください。

| | |

🚀 クイックスタート

必要なライブラリのインストール

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新の Pytorch バージョンをインストールした後に NeMo をインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの使用方法

このモデルは NeMo ツールキット [3] で使用でき、推論や別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_fr_fastconformer_hybrid_large_pc")

高度な使用法

サンプル音声ファイルのダウンロード

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

音声の文字起こし

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし（Transducer モード）

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

複数の音声ファイルの文字起こし（CTC モード）

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

入力

このモデルは、16000 Hz のモノラルチャンネル音声（wav ファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として提供します。

✨ 主な機能

フランス語の音声を文字起こしすることができます。
Transducer と CTC の2つの損失関数を用いたハイブリッドモデルで、高精度な文字起こしが可能です。

📦 インストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_fr_fastconformer_hybrid_large_pc")

高度な使用法

# サンプル音声ファイルのダウンロード
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")

# 音声の文字起こし
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

📚 ドキュメント

モデルアーキテクチャ

FastConformer [1] は、Conformer モデルの最適化バージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、結合 Transducer と CTC デコーダ損失を用いたマルチタスク設定で学習されています。FastConformer の詳細については、Fast-Conformer Model を、ハイブリッド Transducer - CTC 学習については、Hybrid Transducer - CTC を参照してください。

トレーニング

NeMo ツールキット [3] を使用して、数百エポック以上のモデルトレーニングを行いました。これらのモデルは、このサンプルスクリプトとこの基本設定で学習されています。

これらのモデルのトークナイザーは、トレーニングセットのテキストトランスクリプトを使用して、このスクリプトで構築されています。

データセット

このコレクションのすべてのモデルは、1800時間のフランス語音声からなる複合データセット（NeMo PnC ASRSET）で学習されています。

MCV12 (710 時間)
MLS (925 時間)
Voxpopuli (165 時間)

パフォーマンス

自動音声認識モデルのパフォーマンスは、単語誤り率（Word Error Rate）で測定されます。このデータセットは複数のドメインとより大きなコーパスで学習されているため、一般的に音声の文字起こしにおいてより良いパフォーマンスを発揮します。

以下の表は、このコレクションで利用可能なモデルの Transducer デコーダによるパフォーマンスをまとめたものです。ASR モデルのパフォーマンスは、貪欲復号化による単語誤り率（WER%）で報告されています。

句読点と大文字なしのデータでのパフォーマンス（Transducer デコーダ）

Version	Tokenizer	Vocabulary Size	MCV12 DEV	MCV12 TEST	MLS DEV	MLS TEST	VOXPOPULI DEV	VOXPOPULI TEST
1.18.0	SentencePiece Unigram	1024	6.84	7.92	5.0	5.21	5.86	6.49

句読点と大文字ありのデータでのパフォーマンス（Transducer デコーダ）

Version	Tokenizer	Vocabulary Size	MCV12 DEV	MCV12 TEST	MLS DEV	MLS TEST	VOXPOPULI DEV	VOXPOPULI TEST
1.18.0	SentencePiece Unigram	1024	8.04	9.11	10.95	10.6	8.5	8.97

制限事項

このモデルは公開されている音声データセットで学習されているため、モデルが学習していない技術用語や方言を含む音声に対してはパフォーマンスが低下する可能性があります。また、アクセントのある音声に対してもパフォーマンスが低下する場合があります。このモデルは '.', ',', '?' の句読点のみを出力するため、他の句読点も必要なシナリオではうまく機能しない可能性があります。