Parakeet Tdt Ctc 110m_分類| AIbase模型庫

首頁

Parakeet Tdt Ctc 110m

由nvidia開發

由NVIDIA NeMo和Suno.ai聯合開發的英語語音識別模型，支持標點符號和大小寫轉換，採用FastConformer-TDT-CTC架構

語音識別

PyTorch

英語#長音頻轉錄 #高精度ASR #即時語音識別

下載量 50.47k

發布時間 : 9/17/2024

模型概述

這是一個能夠轉寫帶標點符號和大小寫的英語語音的自動語音識別(ASR)模型，基於混合FastConformer TDT-CTC架構，參數規模約1.14億

模型特點

高效長音頻處理

採用全注意力機制的fastconformer架構，可單次處理長達20分鐘的音頻

快速推理速度

在A100上平均RTFx約為5300，實現超快推理速度

標點符號和大小寫轉換

能夠轉寫帶標點符號和大小寫的英語語音

大規模訓練數據

使用36,000小時英語語音數據訓練，包含私有和公開數據集

模型能力

英語語音識別

標點符號轉換

大小寫轉換

長音頻處理

使用案例

語音轉錄

會議記錄轉錄

將會議錄音轉換為帶標點符號的文本記錄

在AMI會議測試集上WER為15.88%

播客轉錄

將播客音頻內容轉換為文本

在LibriSpeech測試集上WER為2.4-5.2%

語音分析

金融收益電話會議分析

分析公司收益電話會議內容

在Earnings-22數據集上WER為12.42%

🚀 Parakeet TDT-CTC 110M PnC（英文）

Parakeet TDT-CTC 110M PnC 是一款自動語音識別（ASR）模型，能夠對英文語音進行轉錄，並添加標點和大小寫。該模型由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發，為語音轉錄提供了高效且準確的解決方案。

🚀 快速開始

安裝 NVIDIA NeMo

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 之後再進行安裝。

pip install nemo_toolkit['all']

使用模型

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt_ctc-110m")

使用 Python 進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

默認情況下，模型使用 TDT 對音頻文件進行轉錄。若要切換解碼器使用 CTC，可使用 decoding_type='ctc'。

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt_ctc-110m" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

輸入

該模型接受 16000 Hz 單聲道音頻（wav 文件）作為輸入。

輸出

該模型會為給定的音頻樣本提供轉錄後的語音字符串。

✨ 主要特性

聯合開發：由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發。
架構優勢：採用 Hybrid FastConformer [1] TDT-CTC [2] 架構，約有 114M 參數。使用全注意力的 fastconformer 架構進行訓練，可一次性轉錄長達 20 分鐘的音頻。
快速 RTFx 值：在所有數據集上都能實現超快的 RTFx 值，在 Hugging Face 排行榜評估集的 A100 上平均 RTFx 約為 5300。

📦 安裝指南

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 之後再進行安裝。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt_ctc-110m")

# 獲取示例音頻文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")

# 進行轉錄
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

高級用法

轉錄多個音頻文件，切換解碼器使用 CTC：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-tdt_ctc-110m" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoding_type='ctc'