模型简介
模型特点
模型能力
使用案例
🚀 鹦鹉螺TDT 0.6B V2(英文)
parakeet-tdt-0.6b-v2
是一款拥有6亿参数的自动语音识别(ASR)模型,专为高质量英文转录而设计。它支持标点符号、大小写处理以及准确的时间戳预测。点击此处试用演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
🚀 快速开始
本模型适用于需要语音转文本功能的开发者、研究人员、学者和行业人士,可应用于对话式AI、语音助手、转录服务、字幕生成和语音分析平台等领域。
✨ 主要特性
- 准确的词级时间戳预测
- 自动添加标点和大小写
- 在口语数字和歌词转录方面表现出色
📦 安装指南
若要训练、微调或使用该模型,你需要安装 NVIDIA NeMo。建议在安装最新版本的PyTorch之后再进行安装。
pip install -U nemo_toolkit["asr"]
💻 使用示例
基础用法
自动实例化模型:
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
高级用法
使用Python进行转录:
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
转录并获取时间戳:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# 默认情况下,时间戳适用于字符、单词和片段级别
word_timestamps = output[0].timestamp['word'] # 第一个样本的单词级时间戳
segment_timestamps = output[0].timestamp['segment'] # 片段级时间戳
char_timestamps = output[0].timestamp['char'] # 字符级时间戳
for stamp in segment_timestamps:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | parakeet-tdt-0.6b-v2 是一款自动语音识别(ASR)模型,采用FastConformer架构并集成TDT解码器,拥有6亿参数,支持英文转录,具备标点、大小写和时间戳预测功能。 |
训练数据 | 该模型在Granary数据集上进行训练,包含约120,000小时的英文语音数据,其中10,000小时来自人工转录的NeMo ASR Set 3.0,110,000小时来自伪标签数据。 |
软件集成
- 运行时引擎:NeMo 2.2
- 支持的硬件微架构:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta
- 推荐/支持的操作系统:Linux
- 硬件特定要求:至少2GB RAM用于加载模型,RAM越大,支持的音频输入越大。
训练和评估
训练
该模型使用NeMo工具包进行训练,具体策略如下:
- 从在LibriLight数据集上使用wav2vec方法预训练的FastConformer SSL检查点初始化。
- 在64个A100 GPU上进行150,000步训练。
- 使用温度采样值0.5平衡数据集语料库。
- 在4个A100 GPU上使用约500小时的高质量人工转录数据进行2,500步的第二阶段微调。
训练使用了 示例脚本 和 TDT配置。分词器使用 脚本 从训练集转录构建。
训练数据集
模型在Granary数据集上训练,包含约120,000小时的英文语音数据:
- 10,000小时来自人工转录的NeMo ASR Set 3.0,包括LibriSpeech、Fisher Corpus等。
- 110,000小时来自伪标签数据,包括YTC、YODAS和Librilight。
所有转录都保留了标点和大小写。Granary数据集将在2025年Interspeech会议展示后公开。
评估数据集
使用Huggingface Open ASR Leaderboard数据集评估模型性能。
性能
基础性能
模型 | 平均WER | AMI | Earnings-22 | GigaSpeech | LS test-clean | LS test-other | SPGI Speech | TEDLIUM-v3 | VoxPopuli |
---|---|---|---|---|---|---|---|---|---|
parakeet-tdt-0.6b-v2 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 |
噪声鲁棒性
SNR级别 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
干净 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
SNR 50 | 6.04 | 11.11 | 11.12 | 9.74 | 1.70 | 3.18 | 2.18 | 3.34 | 5.98 | +0.25% |
SNR 25 | 6.50 | 12.76 | 11.50 | 9.98 | 1.78 | 3.63 | 2.54 | 3.46 | 6.34 | -7.04% |
SNR 5 | 8.39 | 19.33 | 13.83 | 11.28 | 2.36 | 5.50 | 3.91 | 3.91 | 6.96 | -38.11% |
电话音频性能
音频格式 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
标准16kHz | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
μ-law 8kHz | 6.32 | 11.98 | 11.16 | 10.02 | 1.78 | 3.52 | 2.20 | 3.38 | 6.52 | -4.10% |
这些WER分数是在不使用外部语言模型的情况下使用贪心解码获得的。更多评估细节可在 Hugging Face ASR Leaderboard 上查看。
推理
- 引擎:NVIDIA NeMo
- 测试硬件:NVIDIA A10、NVIDIA A100、NVIDIA A30、NVIDIA H100、NVIDIA L4、NVIDIA L40、NVIDIA Turing T4、NVIDIA Volta V100
伦理考量
NVIDIA认为可信AI是一项共同责任,并制定了相关政策和实践,以支持各种AI应用的开发。开发者在下载或使用该模型时,应与支持模型团队合作,确保模型符合相关行业和用例的要求,并解决潜在的产品滥用问题。
如需了解该模型的更多伦理考量信息,请参阅 Model Card++ Explainability, Bias, Safety & Security, and Privacy Subcards。
请在此 报告安全漏洞或NVIDIA AI问题。
偏差
领域 | 响应 |
---|---|
模型设计和测试中受不利影响群体(受保护类别)的参与考虑 | 无 |
为减轻不必要偏差所采取的措施 | 无 |
可解释性
领域 | 响应 |
---|---|
预期领域 | 语音转文本转录 |
模型类型 | FastConformer |
预期用户 | 该模型适用于开发人员、研究人员、学者和构建基于对话应用的行业。 |
输出 | 文本 |
描述模型的工作原理 | 语音输入被编码为嵌入向量,然后传入基于Conformer的模型并输出文本响应。 |
已测试以确保无论哪些受不利影响群体都能获得可比结果 | 不适用 |
技术限制及缓解措施 | 转录可能并非100%准确。准确性会根据语言和输入音频的特征(领域、用例、口音、噪声、语音类型、语音上下文等)而有所不同。 |
已验证符合规定的NVIDIA质量标准 | 是 |
性能指标 | 单词错误率 |
潜在已知风险 | 如果某个单词未在语言模型中训练且未出现在词汇表中,则该单词不太可能被识别。不建议用于逐字/不完整的句子,因为准确性会根据输入文本的上下文而有所不同。 |
许可 | 使用此模型受 CC-BY-4.0 许可协议的约束。 |
隐私
领域 | 响应 |
---|---|
是否可生成或逆向工程个人数据? | 无 |
是否使用个人数据创建此模型? | 无 |
训练中使用的所有数据集是否有来源证明? | 是 |
数据标注(注释、元数据)是否符合隐私法? | 是 |
如果提出数据更正或删除请求,数据是否符合数据主体的请求? | 否,对于外部来源的数据无法实现。 |
适用的隐私政策 | https://www.nvidia.com/en-us/about-nvidia/privacy-policy/ |
安全
领域 | 响应 |
---|---|
模型应用 | 语音转文本转录 |
描述对生命的关键影响 | 无 |
使用案例限制 | 遵守 CC-BY-4.0 许可协议。 |
模型和数据集限制 | 应用最小特权原则(PoLP)限制数据集生成和模型开发的访问权限。在训练期间实施数据集访问限制,并遵守数据集许可约束。 |
🔧 技术细节
parakeet-tdt-0.6b-v2
是FastConformer架构的XL变体,集成了TDT解码器,并采用全注意力机制进行训练,能够高效转录长达24分钟的音频片段。该模型在HF-Open-ASR排行榜上,批量大小为128时,RTFx达到3380。
📄 许可证
使用此模型受 CC-BY-4.0 许可协议的约束。
参考文献
[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition [2] Efficient Sequence Transduction by Jointly Predicting Tokens and Durations [3] NVIDIA NeMo Toolkit [4] Youtube-commons: A massive open corpus for conversational and multimodal data [5] Yodas: Youtube-oriented dataset for audio and speech [6] HuggingFace ASR Leaderboard [7] MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages



