stt_ru_fastconformer_hybrid_large_pc开源俄语语音识别模型

首页

Stt Ru Fastconformer Hybrid Large Pc

由 nvidia 开发

这是一个用于俄语自动语音识别的FastConformer混合模型，结合了Transducer和CTC解码器，参数规模约1.15亿。

语音识别

PyTorch

其他#俄语语音识别 #混合Transducer-CTC #高精度WER

下载量 6,513

发布时间 : 5/26/2023

模型简介

该模型能够转录包含大小写俄语字母、空格和基本标点符号的语音，适用于俄语语音识别任务。

模型特点

混合训练架构

同时使用Transducer和CTC两种损失函数进行训练，提高模型鲁棒性

优化的FastConformer

采用8倍深度可分离卷积下采样的优化Conformer架构，提高处理效率

多数据集训练

在包含1840小时俄语语音的复合数据集上训练，覆盖多种语音场景

模型能力

俄语语音识别

标点符号预测

大小写识别

使用案例

语音转录

俄语语音转文本

将俄语语音内容转换为文本格式

在Common Voice 12.0测试集上WER为5.3

语音助手

俄语语音指令识别

识别和理解俄语语音命令

在Golos crowd测试集上WER低至1.9

🚀 NVIDIA FastConformer-Hybrid Large (ru)

本项目是一个用于俄语自动语音识别的模型，基于FastConformer架构，结合了Transducer和CTC损失进行训练，在多个俄语语音数据集上表现出色。

🚀 快速开始

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的Pytorch之后再安装它。

pip install nemo_toolkit['all']

✨ 主要特性

能够转录包含大小写俄语字母、空格、句号、逗号和问号的语音。
采用FastConformer Transducer - CTC架构的“大型”版本，约有1.15亿个参数。
结合了Transducer和CTC两种损失进行多任务训练。

📦 安装指南

安装 NVIDIA NeMo，使用以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

自动实例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ru_fastconformer_hybrid_large_pc")

高级用法

用Python转录语音

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

输入

该模型接受16000 Hz单声道音频（wav文件）作为输入。

输出

该模型为给定的音频样本提供转录后的语音字符串。

📚 详细文档

模型架构

FastConformer [1] 是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。该模型在多任务设置中进行训练，结合了联合Transducer和CTC解码器损失。你可以在以下链接找到更多关于FastConformer的详细信息：Fast - Conformer Model 以及关于混合Transducer - CTC训练的信息：Hybrid Transducer - CTC。

训练

使用NeMo工具包 [3] 对模型进行了数百个epoch的训练。这些模型使用示例脚本和基础配置进行训练。

这些模型的分词器使用训练集的文本转录通过脚本构建。

数据集

本集合中的所有模型都在一个复合数据集（NeMo PnC ASRSET）上进行训练，该数据集包含1840小时的俄语语音：

Golos (1200小时)
Sova (310小时)
Dusha (200小时)
RULS (92.5小时)
MCV12 (36.7小时)

性能

自动语音识别模型的性能通过单词错误率（WER）来衡量。由于该数据集在多个领域和更大的语料库上进行训练，因此在一般音频转录方面通常表现更好。

以下表格总结了本集合中可用模型在使用Transducer解码器时的性能。ASR模型的性能以贪婪解码的单词错误率（WER%）报告。

a) 在无标点和大写的数据上使用Transducer解码器

版本	分词器	词汇表大小	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST	GOLOS TEST FARFIELD	GOLOS TEST CROWD	DUSHA TEST
1.18.0	SentencePiece Unigram	1024	4.4	5.3	11.04	11.05	5.76	1.9	4.01

b) 在有标点和大写的数据上使用Transducer解码器

版本	分词器	词汇表大小	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST
1.18.0	SentencePiece Unigram	1024	6.14	7.3	26.78	30.81

局限性

由于该模型在公开可用的语音数据集上进行训练，对于包含技术术语或模型未训练过的方言的语音，其性能可能会下降。对于带有口音的语音，模型的性能也可能较差。该模型仅输出标点符号 '.', ',', '?' ，因此在需要其他标点符号的场景中可能表现不佳。

NVIDIA Riva部署

NVIDIA Riva 是一个加速的语音AI SDK，可部署在本地、所有云、多云、混合云、边缘和嵌入式设备上。此外，Riva还提供：

针对最常见语言的世界级开箱即用准确性，其模型检查点在专有数据上进行了数十万小时的GPU计算训练。
具有运行时单词增强（例如品牌和产品名称）以及声学模型、语言模型和逆文本归一化定制的一流准确性。
流式语音识别、Kubernetes兼容扩展和企业级支持。

虽然该模型目前尚未得到Riva的支持，但支持的模型列表在此。查看 Riva实时演示。

引用

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

📄 许可证

使用此模型的许可受 CC - BY - 4.0 许可协议的约束。通过下载该模型的公开和发布版本，即表示你接受 CC - BY - 4.0 许可协议的条款和条件。

信息表格

属性	详情
模型类型	用于俄语自动语音识别的FastConformer-Hybrid模型
训练数据	Golos (1200小时)、Sova (310小时)、Dusha (200小时)、RULS (92.5小时)、MCV12 (36.7小时)
许可证	CC - BY - 4.0