Parakeet CTC 1.1B開源語音識別模型 - 免費實現英語語音精準轉錄

首頁

Parakeet Ctc 1.1b

由nvidia開發

Parakeet CTC 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer架構，擁有約11億參數，支持英語語音轉錄。

語音識別

PyTorch

英語#大規模語音識別 #FastConformer架構 #多領域適配

下載量 14.78k

發布時間 : 12/28/2023

模型概述

該模型是一個自動語音識別（ASR）系統，能夠將語音轉換為小寫英文字母文本。它採用了優化的FastConformer架構和CTC損失函數進行訓練。

模型特點

大規模訓練數據

在64K小時的英語語音數據上訓練，包括40K小時私有數據和24K小時公共數據集

優化的FastConformer架構

採用8倍深度可分離卷積下采樣的Conformer優化版本，提高處理效率

多領域適應性

在多種語音數據集上表現優異，包括會議語音、電話語音和公開演講等不同場景

模型能力

英語語音識別

音頻轉錄

語音轉文本

使用案例

語音轉錄

會議記錄

自動轉錄商務會議內容

在AMI會議測試集上WER為15.62

電話錄音轉寫

將電話通話內容轉換為文本

在Switchboard數據集上表現良好

媒體處理

播客轉錄

自動生成播客節目的文字稿

在LibriSpeech測試集上WER低至1.83-3.54

視頻字幕生成

為視頻內容自動生成字幕

在VoxPopuli測試集上WER為6.53

🚀 Parakeet CTC 1.1B (en)

parakeet-ctc-1.1b 是一個自動語音識別（ASR）模型，可將語音轉錄為小寫英文字母。該模型由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發。它是 FastConformer CTC [1] 的 XXL 版本（約 11 億個參數）模型。有關完整的架構細節，請參閱模型架構部分和 NeMo 文檔。

🚀 快速開始

安裝 NVIDIA NeMo

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 之後再安裝它。

pip install nemo_toolkit['all']

使用模型

該模型可在 NeMo 工具包 [3] 中使用，可作為預訓練檢查點用於推理或在其他數據集上進行微調。

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

使用 Python 進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，簡單地執行以下操作：

asr_model.transcribe(['2086-149220-0033.wav'])

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

輸入

該模型接受 16000 Hz 的單聲道音頻（wav 文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

✨ 主要特性

先進架構：採用 FastConformer [1] 架構，這是 Conformer 模型的優化版本，具有 8 倍深度可分離卷積下采樣，使用 CTC 損失進行訓練。
大規模訓練：在 64000 小時的英語語音上進行訓練，包括私有子集和多個公共數據集。
多領域適應性：由於在多個領域和更大的語料庫上進行訓練，該模型在一般音頻轉錄方面表現出色。

📦 安裝指南

要使用該模型，需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

高級用法

轉錄單個音頻文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")
# 獲取音頻文件
import os
os.system("wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav")
# 轉錄音頻
result = asr_model.transcribe(['2086-149220-0033.wav'])
print(result)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-ctc-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"