P

Parakeet Ctc 1.1b

由 nvidia 开发
Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别模型,基于FastConformer架构,拥有约11亿参数,支持英语语音转录。
下载量 14.78k
发布时间 : 12/28/2023

模型简介

该模型是一个自动语音识别(ASR)系统,能够将语音转换为小写英文字母文本。它采用了优化的FastConformer架构和CTC损失函数进行训练。

模型特点

大规模训练数据
在64K小时的英语语音数据上训练,包括40K小时私有数据和24K小时公共数据集
优化的FastConformer架构
采用8倍深度可分离卷积下采样的Conformer优化版本,提高处理效率
多领域适应性
在多种语音数据集上表现优异,包括会议语音、电话语音和公开演讲等不同场景

模型能力

英语语音识别
音频转录
语音转文本

使用案例

语音转录
会议记录
自动转录商务会议内容
在AMI会议测试集上WER为15.62
电话录音转写
将电话通话内容转换为文本
在Switchboard数据集上表现良好
媒体处理
播客转录
自动生成播客节目的文字稿
在LibriSpeech测试集上WER低至1.83-3.54
视频字幕生成
为视频内容自动生成字幕
在VoxPopuli测试集上WER为6.53
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase