stt_de_conformer_ctc_large开源模型 - 免费实现精准德语自动语音识别

首页

Stt De Conformer Ctc Large

由 nvidia 开发

这是一个用于德语自动语音识别的大规模Conformer-CTC模型，由NVIDIA训练并在数千小时的德语语音数据上进行优化。

语音识别

PyTorch

德语#德语语音识别 #大参数模型 #多数据集训练

下载量 132

发布时间 : 6/28/2022

模型简介

该模型能够转录德语语音为小写字母文本（包括空格），采用Conformer架构的非自回归变体，具有约1.2亿参数。

模型特点

大规模训练数据

在数千小时的德语语音数据上训练，包括VoxPopuli、多语言LibriSpeech和Mozilla Common Voice数据集。

高性能

在多个测试集上表现出色，如Common Voice 7测试集的WER为6.68%。

Riva兼容

与NVIDIA Riva兼容，可用于生产级服务器部署。

非自回归架构

采用Conformer的非自回归变体，使用CTC损失/解码，适合高效语音识别。

模型能力

德语语音识别

音频转录

支持16kHz单声道音频输入

使用案例

语音转录

会议记录

将德语会议录音自动转录为文字记录

高准确率的转录文本

语音助手

为德语语音助手提供语音识别能力

实时准确的语音转文字

媒体处理

字幕生成

为德语视频内容自动生成字幕

高效准确的同步字幕

🚀 NVIDIA Conformer-CTC Large (de)

本模型可将德语语音转录为小写字母形式，包含空格。它在数千小时的德语语音数据上进行了训练。Conformer-CTC Large是Conformer模型的非自回归“大型”变体，约有1.2亿个参数。如需了解完整的架构细节，请参阅模型架构部分和NeMo文档。此外，该模型还与NVIDIA Riva兼容，可用于生产级服务器部署。

🚀 快速开始

本模型可在NeMo工具包[3]中使用，可作为预训练检查点进行推理，或在其他数据集上进行微调。

若要训练、微调或使用该模型，你需要安装NVIDIA NeMo。建议在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

✨ 主要特性

可将德语语音转录为小写字母形式，包含空格。
基于Conformer模型的非自回归“大型”变体，约有1.2亿个参数。
与NVIDIA Riva兼容，可用于生产级服务器部署。

📦 安装指南

若要训练、微调或使用该模型，你需要安装NVIDIA NeMo。建议在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_de_conformer_ctc_large")

高级用法

使用Python进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后，进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"