Parakeet RNNT 0.6B开源语音识别模型 - 免费部署英语语音转文字

首页

Parakeet Rnnt 0.6b

由 nvidia 开发

Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 联合开发的自动语音识别模型，基于 FastConformer 架构，拥有约 6 亿参数，专门用于将英语语音转录为文本。

语音识别

PyTorch

英语#大词汇量语音识别 #多领域适配 #FastConformer架构

下载量 92.27k

发布时间 : 12/28/2023

模型简介

该模型是一个高性能的自动语音识别系统，能够准确地将英语语音转换为小写英文字母文本。它在多种公开和私有数据集上进行了训练，适用于广泛的语音识别场景。

模型特点

高性能 FastConformer 架构

采用优化的 FastConformer 架构，具有 8 倍深度可分离卷积下采样，提供高效的语音识别能力。

大规模训练数据

在 64K 小时的英语语音数据上训练，包括多种公开和私有数据集，确保模型的广泛适用性。

多任务训练

使用转换器解码器 (RNNT) 损失进行多任务训练，提高了模型的识别准确率。

模型能力

英语语音识别

高精度文本转录

支持多种音频格式

使用案例

语音转文本

会议记录

自动转录会议录音，生成文字记录。

在 AMI 会议测试集上 WER 为 17.55

语音助手

为语音助手提供准确的语音识别能力。

在 LibriSpeech 测试集上 WER 低至 1.63-3.06

媒体字幕生成

自动为视频和音频内容生成字幕。

在 TEDLIUM-v3 上 WER 为 3.86

🚀 Parakeet RNNT 0.6B (en)

parakeet-rnnt-0.6b 是一个自动语音识别（ASR）模型，可将语音转录为小写英文字母。该模型由 NVIDIA NeMo 和 Suno.ai 团队联合开发。它是 FastConformer Transducer [1] 的 XL 版本（约 6 亿参数）模型。有关完整的架构细节，请参阅模型架构部分和 NeMo 文档。

🚀 快速开始

安装 NVIDIA NeMo

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。我们建议你在安装最新版本的 PyTorch 后再安装它。

pip install nemo_toolkit['all']

使用模型

该模型可在 NeMo 工具包 [3] 中使用，可作为预训练检查点进行推理或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受 16000 Hz 单声道音频（wav 文件）作为输入。

输出

该模型为给定的音频样本提供转录后的字符串。

✨ 主要特性

强大的模型架构：基于 FastConformer Transducer，约 6 亿参数，在自动语音识别任务中表现出色。
多领域适应性：在多个公共数据集上进行训练，包括 Librispeech、Fisher Corpus 等，能适应不同领域的语音识别需求。
易于使用：可通过 NeMo 工具包轻松实例化和使用，支持推理和微调。

📦 安装指南

要使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 后进行安装：

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

高级用法

# 转录多个音频文件
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")
audio_files = ['audio1.wav', 'audio2.wav']
output = asr_model.transcribe(audio_files)
for result in output:
    print(result.text)

📚 详细文档

模型架构

FastConformer [1] 是 Conformer 模型的优化版本，具有 8 倍深度可分离卷积下采样。该模型在多任务设置中使用 Transducer 解码器（RNNT）损失进行训练。你可以在 Fast-Conformer Model 中找到有关 FastConformer 详细信息。

训练

使用 NeMo 工具包 [3] 对模型进行了数百个 epoch 的训练。这些模型使用示例脚本和基础配置进行训练。

这些模型的分词器使用训练集的文本转录通过脚本构建。

数据集

该模型在由 NVIDIA NeMo 和 Suno 团队收集和准备的 64000 小时英语语音上进行训练。

训练数据集由一个 40000 小时的英语语音私有子集和来自以下公共数据集的 24000 小时组成：

Librispeech：960 小时的英语语音
Fisher Corpus
Switchboard-1 数据集
WSJ-0 和 WSJ-1
国家语音语料库（第 1 部分，第 6 部分）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
多语言 Librispeech（MLS EN） - 2000 小时子集
Mozilla Common Voice（v7.0）
People's Speech - 12000 小时子集

性能

自动语音识别模型的性能使用词错误率（Word Error Rate）进行衡量。由于该数据集在多个领域和更大的语料库上进行训练，因此在一般语音转录方面通常表现更好。

以下表格总结了该集合中可用模型在使用 Transducer 解码器时的性能。ASR 模型的性能以词错误率（WER%）报告，使用贪心解码。

版本	分词器	词汇表大小	AMI	Earnings-22	Giga Speech	LS test-clean	SPGI Speech	TEDLIUM-v3	Vox Populi	Common Voice
1.22.0	SentencePiece Unigram	1024	17.55	14.78	10.07	1.63	3.06	3.47	3.86	6.05

这些是没有外部语言模型的贪心 WER 数值。有关评估的更多详细信息，请参阅 HuggingFace ASR 排行榜。

NVIDIA Riva 部署

NVIDIA Riva 是一个加速语音 AI SDK，可在本地、所有云、多云、混合云、边缘和嵌入式设备上部署。

此外，Riva 还提供：

针对最常见语言的世界级开箱即用准确性，模型检查点在专有数据上进行了数十万 GPU 计算小时的训练。
具有运行时单词增强（例如品牌和产品名称）以及声学模型、语言模型和逆文本归一化定制的一流准确性。
流式语音识别、Kubernetes 兼容扩展和企业级支持。

虽然该模型目前尚未得到 Riva 的支持，但支持的模型列表在此。请查看 Riva 实时演示。

🔧 技术细节

模型类型

FastConformer Transducer

训练数据

该模型在 64000 小时的英语语音上进行训练，包括私有子集和多个公共数据集，如 Librispeech、Fisher Corpus 等。

属性	详情
模型类型	FastConformer Transducer
训练数据	由 NVIDIA NeMo 和 Suno 团队收集和准备的 64000 小时英语语音，包括私有子集和多个公共数据集，如 Librispeech、Fisher Corpus 等。