🚀 NVIDIA Conformer-Transducer Large (de)
该模型是用于德语自动语音识别的大型模型,基于Conformer-Transducer架构,在多个德语语音数据集上进行训练,能以较低的词错误率完成语音转录任务。
🚀 快速开始
本模型可用于德语语音的自动识别任务,以下是使用该模型的基本步骤和示例代码。
✨ 主要特性
- 架构先进:采用Conformer-Transducer架构,结合了卷积和Transformer的优势,适用于自动语音识别任务。
- 多数据集训练:在多个德语语音数据集上进行训练,包括VoxPopuli、Multilingual Librispeech和Mozilla Common Voice等,提升了模型的泛化能力。
- 低词错误率:在多个测试集上取得了较低的词错误率(WER),如在common-voice-7-0测试集上WER为4.93,在Multilingual LibriSpeech测试集上WER为3.85。
📦 安装指南
要训练、微调或使用该模型,需要安装NVIDIA NeMo库。建议在安装最新版本的PyTorch之后进行安装。
pip install nemo_toolkit['all']
💻 使用示例
基础用法
自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")
高级用法
单音频文件转录
首先,获取一个音频样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后进行转录
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
多音频文件转录
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_de_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
输入输出说明
- 输入:该模型接受16000 KHz单声道音频(wav文件)作为输入。
- 输出:该模型为给定的音频样本提供转录后的语音字符串。
📚 详细文档
模型架构
Conformer-Transducer模型是Conformer模型的自回归变体,用于自动语音识别,使用Transducer损失/解码而不是CTC损失。更多详细信息可参考:Conformer-Transducer Model。
训练过程
使用NeMo工具包进行了数百个epoch的训练。模型使用示例脚本和基础配置进行训练。
数据集
该模型在一个复合数据集(NeMo ASRSET)上进行训练,该数据集包含数千小时的德语语音:
- VoxPopuli (DE) 200小时子集
- Multilingual Librispeech (MLS DE) - 1500小时子集
- Mozilla Common Voice (v7.0)
性能表现
该模型集合中可用模型的性能以词错误率(WER%)报告,采用贪心解码。
版本 |
分词器 |
词汇表大小 |
MCV7.0 dev |
MCV7.0 test |
MLS dev |
MLS test |
Voxpopuli dev |
Voxpopuli test |
1.6.0 |
SentencePiece Unigram |
1024 |
4.40 |
4.93 |
3.22 |
3.85 |
11.04 |
8.85 |
局限性
由于该模型是在公开可用的语音数据集上训练的,对于包含技术术语或方言的语音,模型性能可能会下降。此外,对于带有口音的语音,模型性能也可能较差。
NVIDIA Riva部署
NVIDIA Riva是一个加速的语音AI SDK,可部署在本地、所有云、多云、混合云、边缘和嵌入式设备上。此外,Riva提供:
- 针对最常见语言的世界级开箱即用准确率,使用专有数据进行训练的模型检查点,经过数十万小时的GPU计算。
- 一流的准确率,支持运行时单词增强(如品牌和产品名称),以及声学模型、语言模型和逆文本归一化的定制。
- 流式语音识别、Kubernetes兼容的扩展和企业级支持。
虽然该模型目前尚未得到Riva的支持,但支持的模型列表在此。查看Riva实时演示。
🔧 技术细节
模型的技术细节可参考以下论文和文档:
📄 许可证
使用该模型的许可证为CC-BY-4.0。下载该模型的公开版本即表示您接受CC-BY-4.0许可证的条款和条件。