Parakeet TDT 1.1B开源语音识别模型 - 免费将语音转录为小写英文

首页

Parakeet Tdt 1.1b

由 nvidia 开发

Parakeet TDT 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别(ASR)模型，能够将语音转录为小写英文字母。

语音识别

PyTorch

英语#高效语音识别 #多领域适配 #TDT架构

下载量 12.27k

发布时间 : 1/25/2024

模型简介

这是一个基于FastConformer-TDT架构的自动语音识别模型，具有约11亿参数，专为高效语音转录而设计。

模型特点

高效架构

采用FastConformer-TDT架构，通过8倍深度可分离卷积下采样优化性能

快速推理

TDT(标记和持续时间转换器)设计显著提高推理速度

大规模训练

在64K小时的英文语音数据上训练，包括多种公共和私有数据集

多领域适用

在多种测试数据集上表现优异，适用于不同领域的语音识别任务

模型能力

语音识别

音频转录

英语语音处理

使用案例

语音转录

会议记录

自动转录会议音频内容

在AMI测试集上WER为15.90

语音转文字

将语音内容转换为可编辑文本

在LibriSpeech测试集上WER低至1.39

语音分析

语音数据分析

处理和分析大规模语音数据

在GigaSpeech测试集上WER为9.55

🚀 Parakeet TDT 1.1B (英文)

parakeet-tdt-1.1b 是一个自动语音识别（ASR）模型，可将语音转录为小写英文字母。该模型由 NVIDIA NeMo 和 Suno.ai 团队联合开发。它是 FastConformer [1] TDT [2] 的 XXL 版本（约 11 亿参数）模型。有关完整的架构细节，请参阅模型架构部分和 NeMo 文档。

🚀 快速开始

安装 NVIDIA NeMo

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 后再安装它。

pip install nemo_toolkit['all']

使用模型

该模型可在 NeMo 工具包 [3] 中使用，可作为预训练检查点进行推理，或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-tdt-1.1b")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后进行转录：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受 16000 Hz 单声道音频（wav 文件）作为输入。

输出

该模型为给定的音频样本提供转录后的语音字符串。

✨ 主要特性

先进架构：采用 FastConformer-TDT 架构，结合了 FastConformer 的高效卷积下采样和 TDT 对令牌和持续时间的解耦预测，提升了推理速度。
多领域训练：在多个公共数据集和大量私有数据上进行训练，涵盖多种语音场景，具有更好的泛化能力。
性能优异：在多个自动语音识别任务中，具有较低的单词错误率（WER）。

📦 安装指南

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-tdt-1.1b")

高级用法

转录单个音频文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-tdt-1.1b")
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 详细文档

模型架构

该模型使用 FastConformer-TDT 架构。FastConformer [1] 是 Conformer 模型的优化版本，具有 8 倍深度可分离卷积下采样。有关 FastConformer 的更多详细信息，请参阅 Fast-Conformer 模型。

TDT（Token-and-Duration Transducer）[2] 是传统 Transducer 的推广，通过解耦令牌和持续时间预测。与传统 Transducer 在推理过程中产生大量空白不同，TDT 模型可以通过使用持续时间输出（对于 parakeet-tdt-1.1b 模型，最多 4 帧）跳过大部分空白预测，从而显著提高推理速度。有关 TDT 的详细信息，请参阅 Efficient Sequence Transduction by Jointly Predicting Tokens and Durations。

训练

使用 NeMo 工具包 [3] 对模型进行了数百个 epoch 的训练。这些模型使用示例脚本和基础配置进行训练。

这些模型的分词器使用训练集的文本转录通过脚本构建。

数据集

该模型在 NVIDIA NeMo 和 Suno 团队收集和准备的 64000 小时英语语音上进行训练。

训练数据集由 40000 小时的英语语音私有子集和来自以下公共数据集的 24000 小时组成：

Librispeech：960 小时的英语语音
Fisher Corpus
Switchboard-1 数据集
WSJ-0 和 WSJ-1
国家语音语料库（第 1 部分，第 6 部分）
VCTK
VoxPopuli（英语）
Europarl-ASR（英语）
多语言 Librispeech（MLS 英语） - 2000 小时子集
Mozilla Common Voice（v7.0）
People's Speech - 12000 小时子集

性能

自动语音识别模型的性能使用单词错误率（WER）进行衡量。由于该数据集在多个领域和更大的语料库上进行训练，因此在一般音频转录方面通常表现更好。

以下表格总结了该集合中可用模型使用 Transducer 解码器的性能。ASR 模型的性能以贪婪解码的单词错误率（WER%）报告。

版本	分词器	词汇量大小	AMI	Earnings-22	Giga Speech	LS test-clean	SPGI Speech	TEDLIUM-v3	Vox Populi	Common Voice
1.22.0	SentencePiece Unigram	1024	15.90	14.65	9.55	1.39	2.62	3.42	3.56	5.48

这些是没有外部语言模型的贪婪 WER 数值。有关评估的更多详细信息，请参阅 HuggingFace ASR 排行榜。

模型公平性评估

正如论文 "Towards Measuring Fairness in AI: the Casual Conversations Dataset" 中所述，我们评估了 parakeet-tdt-1.1b 模型的公平性。该模型在 CausalConversations-v1 数据集上进行评估，结果如下：