模型概述
模型特點
模型能力
使用案例
🚀 鸚鵡螺TDT 0.6B V2(英文)
parakeet-tdt-0.6b-v2
是一款擁有6億參數的自動語音識別(ASR)模型,專為高質量英文轉錄而設計。它支持標點符號、大小寫處理以及準確的時間戳預測。點擊此處試用演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
🚀 快速開始
本模型適用於需要語音轉文本功能的開發者、研究人員、學者和行業人士,可應用於對話式AI、語音助手、轉錄服務、字幕生成和語音分析平臺等領域。
✨ 主要特性
- 準確的詞級時間戳預測
- 自動添加標點和大小寫
- 在口語數字和歌詞轉錄方面表現出色
📦 安裝指南
若要訓練、微調或使用該模型,你需要安裝 NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再進行安裝。
pip install -U nemo_toolkit["asr"]
💻 使用示例
基礎用法
自動實例化模型:
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
高級用法
使用Python進行轉錄:
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
轉錄並獲取時間戳:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# 默認情況下,時間戳適用於字符、單詞和片段級別
word_timestamps = output[0].timestamp['word'] # 第一個樣本的單詞級時間戳
segment_timestamps = output[0].timestamp['segment'] # 片段級時間戳
char_timestamps = output[0].timestamp['char'] # 字符級時間戳
for stamp in segment_timestamps:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | parakeet-tdt-0.6b-v2 是一款自動語音識別(ASR)模型,採用FastConformer架構並集成TDT解碼器,擁有6億參數,支持英文轉錄,具備標點、大小寫和時間戳預測功能。 |
訓練數據 | 該模型在Granary數據集上進行訓練,包含約120,000小時的英文語音數據,其中10,000小時來自人工轉錄的NeMo ASR Set 3.0,110,000小時來自偽標籤數據。 |
軟件集成
- 運行時引擎:NeMo 2.2
- 支持的硬件微架構:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta
- 推薦/支持的操作系統:Linux
- 硬件特定要求:至少2GB RAM用於加載模型,RAM越大,支持的音頻輸入越大。
訓練和評估
訓練
該模型使用NeMo工具包進行訓練,具體策略如下:
- 從在LibriLight數據集上使用wav2vec方法預訓練的FastConformer SSL檢查點初始化。
- 在64個A100 GPU上進行150,000步訓練。
- 使用溫度採樣值0.5平衡數據集語料庫。
- 在4個A100 GPU上使用約500小時的高質量人工轉錄數據進行2,500步的第二階段微調。
訓練使用了 示例腳本 和 TDT配置。分詞器使用 腳本 從訓練集轉錄構建。
訓練數據集
模型在Granary數據集上訓練,包含約120,000小時的英文語音數據:
- 10,000小時來自人工轉錄的NeMo ASR Set 3.0,包括LibriSpeech、Fisher Corpus等。
- 110,000小時來自偽標籤數據,包括YTC、YODAS和Librilight。
所有轉錄都保留了標點和大小寫。Granary數據集將在2025年Interspeech會議展示後公開。
評估數據集
使用Huggingface Open ASR Leaderboard數據集評估模型性能。
性能
基礎性能
模型 | 平均WER | AMI | Earnings-22 | GigaSpeech | LS test-clean | LS test-other | SPGI Speech | TEDLIUM-v3 | VoxPopuli |
---|---|---|---|---|---|---|---|---|---|
parakeet-tdt-0.6b-v2 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 |
噪聲魯棒性
SNR級別 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相對變化 |
---|---|---|---|---|---|---|---|---|---|---|
乾淨 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
SNR 50 | 6.04 | 11.11 | 11.12 | 9.74 | 1.70 | 3.18 | 2.18 | 3.34 | 5.98 | +0.25% |
SNR 25 | 6.50 | 12.76 | 11.50 | 9.98 | 1.78 | 3.63 | 2.54 | 3.46 | 6.34 | -7.04% |
SNR 5 | 8.39 | 19.33 | 13.83 | 11.28 | 2.36 | 5.50 | 3.91 | 3.91 | 6.96 | -38.11% |
電話音頻性能
音頻格式 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相對變化 |
---|---|---|---|---|---|---|---|---|---|---|
標準16kHz | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
μ-law 8kHz | 6.32 | 11.98 | 11.16 | 10.02 | 1.78 | 3.52 | 2.20 | 3.38 | 6.52 | -4.10% |
這些WER分數是在不使用外部語言模型的情況下使用貪心解碼獲得的。更多評估細節可在 Hugging Face ASR Leaderboard 上查看。
推理
- 引擎:NVIDIA NeMo
- 測試硬件:NVIDIA A10、NVIDIA A100、NVIDIA A30、NVIDIA H100、NVIDIA L4、NVIDIA L40、NVIDIA Turing T4、NVIDIA Volta V100
倫理考量
NVIDIA認為可信AI是一項共同責任,並制定了相關政策和實踐,以支持各種AI應用的開發。開發者在下載或使用該模型時,應與支持模型團隊合作,確保模型符合相關行業和用例的要求,並解決潛在的產品濫用問題。
如需瞭解該模型的更多倫理考量信息,請參閱 Model Card++ Explainability, Bias, Safety & Security, and Privacy Subcards。
請在此 報告安全漏洞或NVIDIA AI問題。
偏差
領域 | 響應 |
---|---|
模型設計和測試中受不利影響群體(受保護類別)的參與考慮 | 無 |
為減輕不必要偏差所採取的措施 | 無 |
可解釋性
領域 | 響應 |
---|---|
預期領域 | 語音轉文本轉錄 |
模型類型 | FastConformer |
預期用戶 | 該模型適用於開發人員、研究人員、學者和構建基於對話應用的行業。 |
輸出 | 文本 |
描述模型的工作原理 | 語音輸入被編碼為嵌入向量,然後傳入基於Conformer的模型並輸出文本響應。 |
已測試以確保無論哪些受不利影響群體都能獲得可比結果 | 不適用 |
技術限制及緩解措施 | 轉錄可能並非100%準確。準確性會根據語言和輸入音頻的特徵(領域、用例、口音、噪聲、語音類型、語音上下文等)而有所不同。 |
已驗證符合規定的NVIDIA質量標準 | 是 |
性能指標 | 單詞錯誤率 |
潛在已知風險 | 如果某個單詞未在語言模型中訓練且未出現在詞彙表中,則該單詞不太可能被識別。不建議用於逐字/不完整的句子,因為準確性會根據輸入文本的上下文而有所不同。 |
許可 | 使用此模型受 CC-BY-4.0 許可協議的約束。 |
隱私
領域 | 響應 |
---|---|
是否可生成或逆向工程個人數據? | 無 |
是否使用個人數據創建此模型? | 無 |
訓練中使用的所有數據集是否有來源證明? | 是 |
數據標註(註釋、元數據)是否符合隱私法? | 是 |
如果提出數據更正或刪除請求,數據是否符合數據主體的請求? | 否,對於外部來源的數據無法實現。 |
適用的隱私政策 | https://www.nvidia.com/en-us/about-nvidia/privacy-policy/ |
安全
領域 | 響應 |
---|---|
模型應用 | 語音轉文本轉錄 |
描述對生命的關鍵影響 | 無 |
使用案例限制 | 遵守 CC-BY-4.0 許可協議。 |
模型和數據集限制 | 應用最小特權原則(PoLP)限制數據集生成和模型開發的訪問權限。在訓練期間實施數據集訪問限制,並遵守數據集許可約束。 |
🔧 技術細節
parakeet-tdt-0.6b-v2
是FastConformer架構的XL變體,集成了TDT解碼器,並採用全注意力機制進行訓練,能夠高效轉錄長達24分鐘的音頻片段。該模型在HF-Open-ASR排行榜上,批量大小為128時,RTFx達到3380。
📄 許可證
使用此模型受 CC-BY-4.0 許可協議的約束。
參考文獻
[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition [2] Efficient Sequence Transduction by Jointly Predicting Tokens and Durations [3] NVIDIA NeMo Toolkit [4] Youtube-commons: A massive open corpus for conversational and multimodal data [5] Yodas: Youtube-oriented dataset for audio and speech [6] HuggingFace ASR Leaderboard [7] MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages



