P

Parakeet Rnnt 1.1b

由 nvidia 开发
Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer Transducer架构,参数约11亿,支持英语语音转录。
下载量 13.18k
发布时间 : 12/27/2023

模型简介

该模型用于将英语语音转录为小写英文字母文本,在多个公开数据集上表现出色。

模型特点

高性能语音识别
在多个公开测试集上取得领先的词错误率(WER)表现
大规模训练数据
使用总计64K小时的英语语音数据进行训练,包括多个公开数据集
优化的模型架构
采用FastConformer架构,具有8倍深度可分离卷积下采样
多任务训练
使用转换器解码器(RNNT)损失在多任务设置中进行训练

模型能力

英语语音识别
音频转录
自动语音转文本

使用案例

语音转录
会议记录
自动转录会议录音
在AMI测试集上WER为17.10%
语音转文字服务
为音频内容生成文字稿
在LibriSpeech测试集上WER低至1.46%
语音助手
为语音助手提供语音识别能力
在Common Voice测试集上WER为5.79%
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase