stt_uz_fastconformer_hybrid_large_pcオープンソースウズベク語音声認識モデル

ホーム

Stt Uz Fastconformer Hybrid Large Pc

nvidiaによって開発

これはFastConformerアーキテクチャに基づく大型ウズベク語音声認識モデルで、TransducerとCTCの二重デコードをサポートし、複数のテストセットで優れた性能を発揮します。

音声認識

PyTorch

その他#ウズベク語音声認識 #FastConformerアーキテクチャ #混合損失トレーニング

ダウンロード数 96

リリース時間 : 10/31/2024

モデル概要

このモデルはウズベク語音声認識に使用され、大文字小文字、スペース、一般的な句読点を含むテキストへの転写が可能で、汎用音声認識シナリオに適しています。

モデル特徴

二重デコード機構

TransducerとCTCの2つのデコード方式を同時にサポートし、より柔軟な推論オプションを提供します

効率的なアーキテクチャ

最適化されたFastConformerアーキテクチャを採用し、標準Conformerと比較してより高い計算効率を実現

複数データセットトレーニング

1000時間のウズベク語音声データに基づいてトレーニングされ、様々な音声シナリオをカバー

モデル能力

ウズベク語音声認識

音声からテキストへの変換

バッチ音声処理

使用事例

音声転写

会議議事録

ウズベク語の会議録音を自動的に文字記録に転写

一般的なシナリオでWER約16-17%

音声アシスタント

ウズベク語音声アシスタントに音声認識機能を提供

教育

言語学習

ウズベク語学習者の発音精度チェックを支援

🚀 NVIDIA FastConformer-Hybrid Large (uz)

このモデルは、スペース、コンマ、疑問符、ダッシュを含む大文字と小文字のウズベク語アルファベットのテキストを文字起こしします。FastConformer Transducer - CTC の「ラージ」バージョン（約 1 億 1500 万のパラメータ）で、Transducer（デフォルト）と CTC の 2 つの損失関数で学習されたハイブリッドモデルです。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMo ドキュメントを参照してください。

| | |

🚀 クイックスタート

モデルを学習、ファインチューニング、または操作するには、NVIDIA NeMo をインストールする必要があります。最新バージョンの Pytorch をインストールした後に NeMo をインストールすることをおすすめします。

pip install nemo_toolkit['all']

✨ 主な機能

ウズベク語の文字起こしを行うことができます。
FastConformer Transducer - CTC のラージバージョンで、2 つの損失関数で学習されたハイブリッドモデルです。

📦 インストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_uz_fastconformer_hybrid_large_pc")

高度な使用法

単一の音声ファイルの文字起こし

output = asr_model.transcribe(['audio_file.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

Transducer モードの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

CTC モードの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

入力

このモデルは、16000 Hz のモノラルチャンネル音声（wav ファイル）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた音声を文字列として出力します。

📚 ドキュメント

モデルアーキテクチャ

FastConformer [1] は、Conformer モデルの最適化されたバージョンで、8 倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、Transducer デコーダの損失関数を用いたマルチタスク設定で学習されています。FastConformer の詳細については、Fast - Conformer Model を参照してください。