P

Parakeet Tdt 1.1b

由 nvidia 开发
Parakeet TDT 1.1B是由NVIDIA NeMo和Suno.ai联合开发的自动语音识别(ASR)模型,能够将语音转录为小写英文字母。
下载量 12.27k
发布时间 : 1/25/2024

模型简介

这是一个基于FastConformer-TDT架构的自动语音识别模型,具有约11亿参数,专为高效语音转录而设计。

模型特点

高效架构
采用FastConformer-TDT架构,通过8倍深度可分离卷积下采样优化性能
快速推理
TDT(标记和持续时间转换器)设计显著提高推理速度
大规模训练
在64K小时的英文语音数据上训练,包括多种公共和私有数据集
多领域适用
在多种测试数据集上表现优异,适用于不同领域的语音识别任务

模型能力

语音识别
音频转录
英语语音处理

使用案例

语音转录
会议记录
自动转录会议音频内容
在AMI测试集上WER为15.90
语音转文字
将语音内容转换为可编辑文本
在LibriSpeech测试集上WER低至1.39
语音分析
语音数据分析
处理和分析大规模语音数据
在GigaSpeech测试集上WER为9.55
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase