stt_ru_conformer_transducer_large開源俄語語音識別模型

首頁

Stt Ru Conformer Transducer Large

由nvidia開發

這是一個基於Conformer架構的非自迴歸大型俄語語音識別模型，參數約1.2億，訓練數據約1636小時俄語語音。

語音識別其他#俄語語音識別 #非自迴歸架構 #多數據集訓練

下載量 537

發布時間 : 10/24/2022

模型概述

該模型能夠將俄語語音轉錄為包含空格的小寫西裡爾字母，適用於俄語語音識別任務。

模型特點

多數據集訓練

在多個俄語語音數據集上進行訓練，包括Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech和SOVA-Dataset等。

非自迴歸架構

採用Conformer的非自迴歸'大型'變體，約有1.2億個參數。

易於使用

可在NeMo工具包中使用，支持自動實例化模型和轉錄語音。

模型能力

俄語語音識別

音頻轉錄

語音轉文本

使用案例

語音轉錄

俄語語音轉錄

將俄語語音轉換為文本

準確率較高，在MCV 10.0測試集上WER為4.0%

🚀 NVIDIA Conformer-Transducer Large (俄語)

該模型可將語音轉錄為包含空格的小寫西裡爾字母，基於約1636小時的俄語語音數據進行訓練。

| | |

本模型能夠將語音轉錄為包含空格的小寫西裡爾字母，它在約1636小時的俄語語音數據上進行了訓練。它是Conformer的非自迴歸“大型”變體，約有1.2億個參數。有關完整的架構細節，請參閱模型架構部分和NeMo文檔。

🚀 快速開始

本模型可在NeMo工具包[3]中使用，可作為預訓練檢查點用於推理，或在其他數據集上進行微調。

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。我們建議你在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

多數據集訓練：在多個俄語語音數據集上進行訓練，包括Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech和SOVA-Dataset等。
非自迴歸架構：採用Conformer的非自迴歸“大型”變體，約有1.2億個參數。
易於使用：可在NeMo工具包中使用，支持自動實例化模型和轉錄語音。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。我們建議你在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_ru_conformer_transducer_large")

使用Python進行轉錄

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

高級用法

本模型接受16 kHz單聲道音頻（wav文件）作為輸入，並將轉錄後的語音作為字符串輸出。

📚 詳細文檔

模型架構

Conformer-Transducer模型是用於自動語音識別的Conformer模型[1]的自迴歸變體，它使用Transducer損失/解碼。你可以在此處找到有關該模型詳細信息：Conformer-Transducer模型。

訓練

NeMo工具包[3]用於對模型進行數百個epoch的訓練。這些模型使用此示例腳本和此基礎配置進行訓練。

我們使用的詞彙表包含33個字符：

[' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я']