NVIDIA FastConformer-Hybrid Large (ua)开源模型 - 高效实现乌克兰语语音识别

Home

Stt Ua Fastconformer Hybrid Large Pc

Developed by nvidia

NVIDIA FastConformer-Hybrid Large (ua) 是一个用于乌克兰语语音识别的混合模型，结合了Transducer和CTC两种损失函数训练，参数约1.15亿。

语音识别 #乌克兰语语音转写 #混合损失训练 #FastConformer架构

Downloads 381

Release Time : 5/15/2023

Model Overview

该模型能够将乌克兰语语音转录为包含大小写字母、空格、句号、逗号和问号的文本，适用于语音识别任务。

Model Features

混合模型训练

结合Transducer和CTC两种损失函数训练，提升模型性能。

支持标点符号

输出文本包含大小写字母及常用标点符号（句号、逗号、问号）。

高效架构

采用FastConformer架构，优化了计算效率。

Model Capabilities

乌克兰语语音识别

标点符号生成

大小写字母转换

Use Cases

语音转录

音频文件转录

将乌克兰语语音文件转录为文本。

输出包含标点符号和大小写的文本。

多文件批量处理

批量音频转录

支持批量处理多个音频文件，提高效率。

🚀 NVIDIA FastConformer-Hybrid Large (ua)

本模型可将乌克兰语语音转录为包含大小写字母、空格、句号、逗号和问号的文本。它是FastConformer Transducer - CTC的“大型”版本（约1.15亿个参数），这是一个基于Transducer（默认）和CTC两种损失函数训练的混合模型。如需了解完整的架构细节，请参阅模型架构部分和NeMo文档。

🚀 快速开始

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。我们建议你在安装最新版本的Pytorch后再进行安装。

pip install nemo_toolkit['all']

✨ 主要特性

能够转录乌克兰语语音，输出包含大小写字母及常用标点符号的文本。
采用FastConformer Transducer - CTC架构，约1.15亿个参数。
基于两种损失函数（Transducer和CTC）训练的混合模型。

📦 安装指南

若要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的Pytorch后再进行安装，安装命令如下：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ua_fastconformer_hybrid_large_pc")

高级用法

转录单个音频文件

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 详细文档

模型架构

FastConformer [1] 是Conformer模型的优化版本，具有8倍深度可分离卷积下采样。该模型在多任务设置中进行训练，结合了Transducer和CTC解码器损失。你可以在以下链接找到更多关于FastConformer的详细信息：Fast - Conformer Model 以及关于混合Transducer - CTC训练的信息：Hybrid Transducer - CTC。