Parakeet CTC 0.6B開源自動語音識別模型 - 免費實現英語語音轉錄

Home

Parakeet Ctc 0.6b

Developed by nvidia

Parakeet CTC 0.6B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer架構，擁有約6億參數，支持英語語音轉錄。

語音識別

PyTorch

English#大詞彙量語音識別 #多領域適配 #FastConformer架構

Downloads 6,528

Release Time : 12/28/2023

Model Overview

該模型是一個高性能的自動語音識別系統，能夠將英語語音準確轉錄為文本，適用於多種語音識別場景。

Model Features

高性能語音識別

基於FastConformer架構優化，具有8倍深度可分離卷積下采樣，提供高效的語音識別能力。

大規模訓練數據

在64K小時的英語語音數據上訓練，包括多個公共和私有數據集，覆蓋多種語音場景。

低詞錯誤率

在多個測試集上表現出色，如LibriSpeech測試集上WER低至1.87%。

Model Capabilities

英語語音識別

音頻轉錄

支持16kHz單聲道音頻輸入

Use Cases

語音轉錄

會議記錄

自動轉錄會議錄音，提高會議記錄效率。

在AMI會議測試集上WER為16.3%

語音轉文字

將語音內容轉換為可編輯的文本格式。

在LibriSpeech測試集上WER為1.87%-3.76%

語音分析

語音內容分析

分析語音內容，提取關鍵信息。

在多個測試集上表現優異

🚀 Parakeet CTC 0.6B (en)

parakeet-ctc-0.6b 是一個自動語音識別（ASR）模型，可將語音轉錄為小寫英文字母。該模型由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發，是 FastConformer CTC [1] 的 XL 版本（約 6 億個參數）。有關完整的架構細節，請參閱模型架構部分和 NeMo 文檔。

🚀 快速開始

安裝 NVIDIA NeMo

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 後再安裝它。

pip install nemo_toolkit['all']

使用模型

該模型可在 NeMo 工具包 [3] 中使用，可作為預訓練檢查點進行推理或在其他數據集上進行微調。

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")

使用 Python 進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，簡單地執行以下操作：

asr_model.transcribe(['2086-149220-0033.wav'])

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

輸入

該模型接受 16000 Hz 的單聲道音頻（wav 文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

✨ 主要特性

先進架構：基於 FastConformer [1] 架構，這是 Conformer 模型的優化版本，具有 8 倍深度可分離卷積下采樣，並使用 CTC 損失進行訓練。
多領域訓練：在多個公共數據集和私有數據集上進行訓練，涵蓋了 64K 小時的英語語音，使其在不同領域的音頻轉錄中表現出色。
高性能：在多個基準測試中表現良好，具有較低的詞錯誤率（WER）。

📦 安裝指南

要使用該模型，需要安裝 NVIDIA NeMo 工具包。建議在安裝最新版本的 PyTorch 後執行以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")

高級用法

轉錄單個音頻文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")
# 獲取示例音頻文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")
# 轉錄音頻文件
result = asr_model.transcribe(['2086-149220-0033.wav'])
print(result)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"