Parakeet-tdt-0.6b-v2開源語音識別模型 - 免費實現英文轉錄及標點、時間戳預測

首頁

Parakeet Tdt 0.6b V2

由nvidia開發

擁有6億參數的自動語音識別模型，支持英文轉錄、標點符號、大小寫和時間戳預測

語音識別

PyTorch

英語#長音頻轉錄 #詞級時間戳 #標點大小寫預測

下載量 242.71k

發布時間 : 4/15/2025

模型概述

Parakeet TDT 0.6B V2是一款高質量的自動語音識別(ASR)模型，專為英文轉錄設計，支持精確的時間戳預測、自動標點符號和大小寫處理。

模型特點

精確時間戳預測

支持詞級、字符級和片段級的時間戳預測

自動標點符號和大小寫

自動處理轉錄文本中的標點符號和大小寫

長音頻處理能力

能夠一次性處理長達24分鐘的音頻片段

魯棒性表現

在口語數字和歌詞轉錄方面表現穩健

模型能力

語音轉文本

時間戳預測

標點符號恢復

大小寫恢復

使用案例

對話式AI

語音助手

構建支持語音交互的智能助手

轉錄服務

會議記錄

自動轉錄會議音頻

在AMI測試集上WER為11.16

字幕生成

為視頻內容自動生成字幕

語音分析

語音數據分析

分析語音數據以提取洞察

🚀 鸚鵡螺TDT 0.6B V2（英文）

parakeet-tdt-0.6b-v2 是一款擁有6億參數的自動語音識別（ASR）模型，專為高質量英文轉錄而設計。它支持標點符號、大小寫處理以及準確的時間戳預測。點擊此處試用演示：https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

🚀 快速開始

本模型適用於需要語音轉文本功能的開發者、研究人員、學者和行業人士，可應用於對話式AI、語音助手、轉錄服務、字幕生成和語音分析平臺等領域。

✨ 主要特性

準確的詞級時間戳預測
自動添加標點和大小寫
在口語數字和歌詞轉錄方面表現出色

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再進行安裝。

pip install -U nemo_toolkit["asr"]

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

高級用法

使用Python進行轉錄：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄並獲取時間戳：

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# 默認情況下，時間戳適用於字符、單詞和片段級別
word_timestamps = output[0].timestamp['word'] # 第一個樣本的單詞級時間戳
segment_timestamps = output[0].timestamp['segment'] # 片段級時間戳
char_timestamps = output[0].timestamp['char'] # 字符級時間戳

for stamp in segment_timestamps:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

📚 詳細文檔

模型信息

屬性	詳情
模型類型	`parakeet-tdt-0.6b-v2` 是一款自動語音識別（ASR）模型，採用FastConformer架構並集成TDT解碼器，擁有6億參數，支持英文轉錄，具備標點、大小寫和時間戳預測功能。
訓練數據	該模型在Granary數據集上進行訓練，包含約120,000小時的英文語音數據，其中10,000小時來自人工轉錄的NeMo ASR Set 3.0，110,000小時來自偽標籤數據。

軟件集成

運行時引擎：NeMo 2.2
支持的硬件微架構：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Hopper、NVIDIA Volta
推薦/支持的操作系統：Linux
硬件特定要求：至少2GB RAM用於加載模型，RAM越大，支持的音頻輸入越大。

訓練和評估

訓練

該模型使用NeMo工具包進行訓練，具體策略如下：

從在LibriLight數據集上使用wav2vec方法預訓練的FastConformer SSL檢查點初始化。
在64個A100 GPU上進行150,000步訓練。
使用溫度採樣值0.5平衡數據集語料庫。
在4個A100 GPU上使用約500小時的高質量人工轉錄數據進行2,500步的第二階段微調。

訓練使用了示例腳本和 TDT配置。分詞器使用腳本從訓練集轉錄構建。

訓練數據集

模型在Granary數據集上訓練，包含約120,000小時的英文語音數據：

10,000小時來自人工轉錄的NeMo ASR Set 3.0，包括LibriSpeech、Fisher Corpus等。
110,000小時來自偽標籤數據，包括YTC、YODAS和Librilight。

所有轉錄都保留了標點和大小寫。Granary數據集將在2025年Interspeech會議展示後公開。

評估數據集

使用Huggingface Open ASR Leaderboard數據集評估模型性能。

性能

基礎性能

模型	平均WER	AMI	Earnings-22	GigaSpeech	LS test-clean	LS test-other	SPGI Speech	TEDLIUM-v3	VoxPopuli
parakeet-tdt-0.6b-v2	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95

噪聲魯棒性

SNR級別	平均WER	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相對變化
乾淨	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
SNR 50	6.04	11.11	11.12	9.74	1.70	3.18	2.18	3.34	5.98	+0.25%
SNR 25	6.50	12.76	11.50	9.98	1.78	3.63	2.54	3.46	6.34	-7.04%
SNR 5	8.39	19.33	13.83	11.28	2.36	5.50	3.91	3.91	6.96	-38.11%

電話音頻性能

音頻格式	平均WER	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相對變化
標準16kHz	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
μ-law 8kHz	6.32	11.98	11.16	10.02	1.78	3.52	2.20	3.38	6.52	-4.10%

這些WER分數是在不使用外部語言模型的情況下使用貪心解碼獲得的。更多評估細節可在 Hugging Face ASR Leaderboard 上查看。

推理

引擎：NVIDIA NeMo
測試硬件：NVIDIA A10、NVIDIA A100、NVIDIA A30、NVIDIA H100、NVIDIA L4、NVIDIA L40、NVIDIA Turing T4、NVIDIA Volta V100

倫理考量

NVIDIA認為可信AI是一項共同責任，並制定了相關政策和實踐，以支持各種AI應用的開發。開發者在下載或使用該模型時，應與支持模型團隊合作，確保模型符合相關行業和用例的要求，並解決潛在的產品濫用問題。

如需瞭解該模型的更多倫理考量信息，請參閱 Model Card++ Explainability, Bias, Safety & Security, and Privacy Subcards。

請在此報告安全漏洞或NVIDIA AI問題。

偏差

領域	響應
模型設計和測試中受不利影響群體（受保護類別）的參與考慮	無
為減輕不必要偏差所採取的措施	無

可解釋性

領域	響應
預期領域	語音轉文本轉錄
模型類型	FastConformer
預期用戶	該模型適用於開發人員、研究人員、學者和構建基於對話應用的行業。
輸出	文本
描述模型的工作原理	語音輸入被編碼為嵌入向量，然後傳入基於Conformer的模型並輸出文本響應。
已測試以確保無論哪些受不利影響群體都能獲得可比結果	不適用
技術限制及緩解措施	轉錄可能並非100%準確。準確性會根據語言和輸入音頻的特徵（領域、用例、口音、噪聲、語音類型、語音上下文等）而有所不同。
已驗證符合規定的NVIDIA質量標準	是
性能指標	單詞錯誤率
潛在已知風險	如果某個單詞未在語言模型中訓練且未出現在詞彙表中，則該單詞不太可能被識別。不建議用於逐字/不完整的句子，因為準確性會根據輸入文本的上下文而有所不同。
許可	使用此模型受 CC-BY-4.0 許可協議的約束。

隱私

領域	響應
是否可生成或逆向工程個人數據？	無
是否使用個人數據創建此模型？	無
訓練中使用的所有數據集是否有來源證明？	是
數據標註（註釋、元數據）是否符合隱私法？	是
如果提出數據更正或刪除請求，數據是否符合數據主體的請求？	否，對於外部來源的數據無法實現。
適用的隱私政策	https://www.nvidia.com/en-us/about-nvidia/privacy-policy/

安全

領域	響應
模型應用	語音轉文本轉錄
描述對生命的關鍵影響	無
使用案例限制	遵守 CC-BY-4.0 許可協議。
模型和數據集限制	應用最小特權原則（PoLP）限制數據集生成和模型開發的訪問權限。在訓練期間實施數據集訪問限制，並遵守數據集許可約束。