P

Parakeet Rnnt 0.6b

由 nvidia 开发
Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 联合开发的自动语音识别模型,基于 FastConformer 架构,拥有约 6 亿参数,专门用于将英语语音转录为文本。
下载量 92.27k
发布时间 : 12/28/2023

模型简介

该模型是一个高性能的自动语音识别系统,能够准确地将英语语音转换为小写英文字母文本。它在多种公开和私有数据集上进行了训练,适用于广泛的语音识别场景。

模型特点

高性能 FastConformer 架构
采用优化的 FastConformer 架构,具有 8 倍深度可分离卷积下采样,提供高效的语音识别能力。
大规模训练数据
在 64K 小时的英语语音数据上训练,包括多种公开和私有数据集,确保模型的广泛适用性。
多任务训练
使用转换器解码器 (RNNT) 损失进行多任务训练,提高了模型的识别准确率。

模型能力

英语语音识别
高精度文本转录
支持多种音频格式

使用案例

语音转文本
会议记录
自动转录会议录音,生成文字记录。
在 AMI 会议测试集上 WER 为 17.55
语音助手
为语音助手提供准确的语音识别能力。
在 LibriSpeech 测试集上 WER 低至 1.63-3.06
媒体字幕生成
自动为视频和音频内容生成字幕。
在 TEDLIUM-v3 上 WER 为 3.86
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase