stt_es_conformer_transducer_largeオープンソースモデル - スペイン語の自動音声認識をサポート

ホーム

Stt Es Conformer Transducer Large

nvidiaによって開発

これはスペイン語自動音声認識用の大型Conformer-トランスデューサーモデルで、約1.2億パラメータを持ち、1340時間のスペイン語音声データでトレーニングされています。

音声認識

PyTorch

スペイン語#スペイン語音声認識 #Conformer-トランスデューサーアーキテクチャ #低WER

ダウンロード数 708

リリース時間 : 7/8/2022

モデル概要

このモデルはスペースを含む小文字のスペイン語アルファベットの音声を転写するために使用され、Conformer-トランスデューサーアーキテクチャに基づいており、高い精度とストリーミング処理能力を備えています。

モデル特徴

高精度スペイン語認識

Common Voice 7.0テストセットでWER5.2%など、複数のテストセットで優れた性能を発揮

大規模トレーニングデータ

1340時間のスペイン語音声を含む複合データセットでトレーニング

ストリーミング処理能力

トランスデューサーアーキテクチャに基づき、ストリーミング音声認識をサポート

モデル能力

スペイン語音声認識

音声転写

ストリーミング音声処理

使用事例

音声からテキストへ

音声転写サービス

スペイン語音声コンテンツをテキストに変換

高精度な転写結果

音声アシスタント

スペイン語音声インタラクション

スペイン語音声アシスタントの開発に使用

🚀 NVIDIA Conformer-Transducer Large (es)

このモデルは、スペースを含む小文字のスペイン語アルファベットで音声を文字起こしし、1340時間のスペイン語音声からなる複合データセットで学習されました。Conformer-Transducerの「大型」バリアントで、約1億2000万のパラメータを持っています。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

モデルのトレーニング

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをおすすめします。

pip install nemo_toolkit['all']

モデルの使用方法

このモデルは、NeMoツールキット[3]で使用でき、推論用の事前学習済みチェックポイントとして、または別のデータセットでのファインチューニング用として使用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_es_conformer_transducer_large")

高度な使用法

Pythonを使用した文字起こし

まず、サンプル音声ファイルを取得します。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

次に、以下のコードを実行して文字起こしを行います。

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_es_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"