stt_ru_conformer_transducer_large开源俄语语音识别模型

Home

Stt Ru Conformer Transducer Large

Developed by nvidia

这是一个基于Conformer架构的非自回归大型俄语语音识别模型，参数约1.2亿，训练数据约1636小时俄语语音。

语音识别 Other#俄语语音识别 #非自回归架构 #多数据集训练

Downloads 537

Release Time : 10/24/2022

Model Overview

该模型能够将俄语语音转录为包含空格的小写西里尔字母，适用于俄语语音识别任务。

Model Features

多数据集训练

在多个俄语语音数据集上进行训练，包括Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech和SOVA-Dataset等。

非自回归架构

采用Conformer的非自回归'大型'变体，约有1.2亿个参数。

易于使用

可在NeMo工具包中使用，支持自动实例化模型和转录语音。

Model Capabilities

俄语语音识别

音频转录

语音转文本

Use Cases

语音转录

俄语语音转录

将俄语语音转换为文本

准确率较高，在MCV 10.0测试集上WER为4.0%

🚀 NVIDIA Conformer-Transducer Large (俄语)

该模型可将语音转录为包含空格的小写西里尔字母，基于约1636小时的俄语语音数据进行训练。

| | |

本模型能够将语音转录为包含空格的小写西里尔字母，它在约1636小时的俄语语音数据上进行了训练。它是Conformer的非自回归“大型”变体，约有1.2亿个参数。有关完整的架构细节，请参阅模型架构部分和NeMo文档。

🚀 快速开始

本模型可在NeMo工具包[3]中使用，可作为预训练检查点用于推理，或在其他数据集上进行微调。

若要训练、微调或使用该模型，你需要安装NVIDIA NeMo。我们建议你在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

✨ 主要特性

多数据集训练：在多个俄语语音数据集上进行训练，包括Mozilla Common Voice 10.0、SberDevices/Golos、Russian-LibriSpeech和SOVA-Dataset等。
非自回归架构：采用Conformer的非自回归“大型”变体，约有1.2亿个参数。
易于使用：可在NeMo工具包中使用，支持自动实例化模型和转录语音。

📦 安装指南

若要训练、微调或使用该模型，你需要安装NVIDIA NeMo。我们建议你在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_ru_conformer_transducer_large")

使用Python进行转录

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

高级用法

本模型接受16 kHz单声道音频（wav文件）作为输入，并将转录后的语音作为字符串输出。

📚 详细文档

模型架构

Conformer-Transducer模型是用于自动语音识别的Conformer模型[1]的自回归变体，它使用Transducer损失/解码。你可以在此处找到有关该模型详细信息：Conformer-Transducer模型。

训练

NeMo工具包[3]用于对模型进行数百个epoch的训练。这些模型使用此示例脚本和此基础配置进行训练。

我们使用的词汇表包含33个字符：

[' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я']