Parakeet CTC 1.1B开源语音识别模型 - 免费实现英语语音精准转录

首页

Parakeet Ctc 1.1b

由 nvidia 开发

Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型，基于FastConformer架构，拥有约11亿参数，支持英语语音转录。

语音识别

PyTorch

英语#大规模语音识别 #FastConformer架构 #多领域适配

下载量 14.78k

发布时间 : 12/28/2023

模型简介

该模型是一个自动语音识别（ASR）系统，能够将语音转换为小写英文字母文本。它采用了优化的FastConformer架构和CTC损失函数进行训练。

模型特点

大规模训练数据

在64K小时的英语语音数据上训练，包括40K小时私有数据和24K小时公共数据集

优化的FastConformer架构

采用8倍深度可分离卷积下采样的Conformer优化版本，提高处理效率

多领域适应性

在多种语音数据集上表现优异，包括会议语音、电话语音和公开演讲等不同场景

模型能力

英语语音识别

音频转录

语音转文本

使用案例

语音转录

会议记录

自动转录商务会议内容

在AMI会议测试集上WER为15.62

电话录音转写

将电话通话内容转换为文本

在Switchboard数据集上表现良好

媒体处理

播客转录

自动生成播客节目的文字稿

在LibriSpeech测试集上WER低至1.83-3.54

视频字幕生成

为视频内容自动生成字幕

在VoxPopuli测试集上WER为6.53

🚀 Parakeet CTC 1.1B (en)

parakeet-ctc-1.1b 是一个自动语音识别（ASR）模型，可将语音转录为小写英文字母。该模型由 NVIDIA NeMo 和 Suno.ai 团队联合开发。它是 FastConformer CTC [1] 的 XXL 版本（约 11 亿个参数）模型。有关完整的架构细节，请参阅模型架构部分和 NeMo 文档。

🚀 快速开始

安装 NVIDIA NeMo

要训练、微调或使用该模型，你需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 之后再安装它。

pip install nemo_toolkit['all']

使用模型

该模型可在 NeMo 工具包 [3] 中使用，可作为预训练检查点用于推理或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

使用 Python 进行转录

首先，获取一个示例音频文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后，简单地执行以下操作：

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受 16000 Hz 的单声道音频（wav 文件）作为输入。

输出

该模型为给定的音频样本提供转录后的语音字符串。

✨ 主要特性

先进架构：采用 FastConformer [1] 架构，这是 Conformer 模型的优化版本，具有 8 倍深度可分离卷积下采样，使用 CTC 损失进行训练。
大规模训练：在 64000 小时的英语语音上进行训练，包括私有子集和多个公共数据集。
多领域适应性：由于在多个领域和更大的语料库上进行训练，该模型在一般音频转录方面表现出色。

📦 安装指南

要使用该模型，需要安装 NVIDIA NeMo。建议在安装最新版本的 PyTorch 之后再安装它。

pip install nemo_toolkit['all']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

高级用法

转录单个音频文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")
# 获取音频文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")
# 转录音频
result = asr_model.transcribe(['2086-149220-0033.wav'])
print(result)

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"