stt_de_conformer_ctc_largeオープンソースモデル - 無料で高精度なドイツ語自動音声認識を実現

ホーム

Stt De Conformer Ctc Large

nvidiaによって開発

これはドイツ語自動音声認識のための大規模Conformer-CTCモデルで、NVIDIAが数千時間のドイツ語音声データでトレーニングおよび最適化しました。

音声認識

PyTorch

ドイツ語#ドイツ語音声認識 #大規模パラメータモデル #複数データセット学習

ダウンロード数 132

リリース時間 : 6/28/2022

モデル概要

このモデルはドイツ語音声を小文字テキスト（スペースを含む）に変換でき、Conformerアーキテクチャの非自己回帰バリアントを採用し、約1.2億のパラメータを持ちます。

モデル特徴

大規模トレーニングデータ

VoxPopuli、多言語LibriSpeech、Mozilla Common Voiceデータセットを含む数千時間のドイツ語音声データでトレーニングされました。

高性能

Common Voice 7テストセットでWER 6.68%など、複数のテストセットで優れた性能を発揮します。

Riva互換

NVIDIA Rivaと互換性があり、プロダクションレベルのサーバー展開に使用できます。

非自己回帰アーキテクチャ

Conformerの非自己回帰バリアントを採用し、CTC損失/デコードを使用するため、効率的な音声認識に適しています。

モデル能力

ドイツ語音声認識

音声文字起こし

16kHzモノラル音声入力に対応

使用事例

音声文字起こし

会議議事録

ドイツ語会議録音を自動的に文字起こし

高精度な文字起こしテキスト

音声アシスタント

ドイツ語音声アシスタントに音声認識機能を提供

リアルタイムで正確な音声から文字への変換

メディア処理

字幕生成

ドイツ語動画コンテンツに自動的に字幕を生成

効率的で正確な同期字幕

🚀 NVIDIA Conformer-CTC Large (de)

このモデルは、自動音声認識（Automatic Speech Recognition）を行うためのモデルで、ドイツ語の音声を文字起こしします。Conformer-CTCアーキテクチャを採用し、数千時間のドイツ語音声データで学習されています。NVIDIA Rivaとの互換性も備えており、本番環境でのデプロイに適しています。

🚀 クイックスタート

このモデルはNeMoツールキットで使用できます。まずはNeMoをインストールしましょう。最新のPyTorchバージョンをインストールした後、以下のコマンドでNeMoをインストールします。

pip install nemo_toolkit['all']

モデルの自動インスタンス化

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_de_conformer_ctc_large")

Pythonを使用した文字起こし

まずはサンプル音声ファイルをダウンロードします。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードで文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 kHzのモノラルチャンネルの音声ファイル（wav形式）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して、文字起こしされた文字列を出力します。

✨ 主な機能

自動音声認識（Automatic Speech Recognition）を行うことができます。
Conformer-CTCアーキテクチャを採用しています。
数千時間のドイツ語音声データで学習されています。
NVIDIA Rivaとの互換性があり、本番環境でのデプロイに適しています。

📦 インストール

最新のPyTorchバージョンをインストールした後、以下のコマンドでNeMoをインストールします。

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_de_conformer_ctc_large")

高度な使用法

# 複数の音声ファイルの文字起こし
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"