Parakeet RNNT 0.6B開源語音識別模型 - 免費部署英語語音轉文字

首頁

Parakeet Rnnt 0.6b

由nvidia開發

Parakeet RNNT 0.6B 是由 NVIDIA NeMo 和 Suno.ai 聯合開發的自動語音識別模型，基於 FastConformer 架構，擁有約 6 億參數，專門用於將英語語音轉錄為文本。

語音識別

PyTorch

英語#大詞彙量語音識別 #多領域適配 #FastConformer架構

下載量 92.27k

發布時間 : 12/28/2023

模型概述

該模型是一個高性能的自動語音識別系統，能夠準確地將英語語音轉換為小寫英文字母文本。它在多種公開和私有數據集上進行了訓練，適用於廣泛的語音識別場景。

模型特點

高性能 FastConformer 架構

採用優化的 FastConformer 架構，具有 8 倍深度可分離卷積下采樣，提供高效的語音識別能力。

大規模訓練數據

在 64K 小時的英語語音數據上訓練，包括多種公開和私有數據集，確保模型的廣泛適用性。

多任務訓練

使用轉換器解碼器 (RNNT) 損失進行多任務訓練，提高了模型的識別準確率。

模型能力

英語語音識別

高精度文本轉錄

支持多種音頻格式

使用案例

語音轉文本

會議記錄

自動轉錄會議錄音，生成文字記錄。

在 AMI 會議測試集上 WER 為 17.55

語音助手

為語音助手提供準確的語音識別能力。

在 LibriSpeech 測試集上 WER 低至 1.63-3.06

媒體字幕生成

自動為視頻和音頻內容生成字幕。

在 TEDLIUM-v3 上 WER 為 3.86

🚀 Parakeet RNNT 0.6B (en)

parakeet-rnnt-0.6b 是一個自動語音識別（ASR）模型，可將語音轉錄為小寫英文字母。該模型由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發。它是 FastConformer Transducer [1] 的 XL 版本（約 6 億參數）模型。有關完整的架構細節，請參閱模型架構部分和 NeMo 文檔。

🚀 快速開始

安裝 NVIDIA NeMo

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。我們建議你在安裝最新版本的 PyTorch 後再安裝它。

pip install nemo_toolkit['all']

使用模型

該模型可在 NeMo 工具包 [3] 中使用，可作為預訓練檢查點進行推理或在其他數據集上進行微調。

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

使用 Python 進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-0.6b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

輸入

該模型接受 16000 Hz 單聲道音頻（wav 文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的字符串。

✨ 主要特性

強大的模型架構：基於 FastConformer Transducer，約 6 億參數，在自動語音識別任務中表現出色。
多領域適應性：在多個公共數據集上進行訓練，包括 Librispeech、Fisher Corpus 等，能適應不同領域的語音識別需求。
易於使用：可通過 NeMo 工具包輕鬆實例化和使用，支持推理和微調。

📦 安裝指南

要使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 後進行安裝：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")

高級用法

# 轉錄多個音頻文件
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-0.6b")
audio_files = ['audio1.wav', 'audio2.wav']
output = asr_model.transcribe(audio_files)
for result in output:
    print(result.text)

📚 詳細文檔

模型架構

FastConformer [1] 是 Conformer 模型的優化版本，具有 8 倍深度可分離卷積下采樣。該模型在多任務設置中使用 Transducer 解碼器（RNNT）損失進行訓練。你可以在 Fast-Conformer Model 中找到有關 FastConformer 詳細信息。

訓練

使用 NeMo 工具包 [3] 對模型進行了數百個 epoch 的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器使用訓練集的文本轉錄通過腳本構建。

數據集

該模型在由 NVIDIA NeMo 和 Suno 團隊收集和準備的 64000 小時英語語音上進行訓練。

訓練數據集由一個 40000 小時的英語語音私有子集和來自以下公共數據集的 24000 小時組成：

Librispeech：960 小時的英語語音
Fisher Corpus
Switchboard-1 數據集
WSJ-0 和 WSJ-1
國家語音語料庫（第 1 部分，第 6 部分）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
多語言 Librispeech（MLS EN） - 2000 小時子集
Mozilla Common Voice（v7.0）
People's Speech - 12000 小時子集

性能

自動語音識別模型的性能使用詞錯誤率（Word Error Rate）進行衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此在一般語音轉錄方面通常表現更好。

以下表格總結了該集合中可用模型在使用 Transducer 解碼器時的性能。ASR 模型的性能以詞錯誤率（WER%）報告，使用貪心解碼。

版本	分詞器	詞彙表大小	AMI	Earnings-22	Giga Speech	LS test-clean	SPGI Speech	TEDLIUM-v3	Vox Populi	Common Voice
1.22.0	SentencePiece Unigram	1024	17.55	14.78	10.07	1.63	3.06	3.47	3.86	6.05

這些是沒有外部語言模型的貪心 WER 數值。有關評估的更多詳細信息，請參閱 HuggingFace ASR 排行榜。

NVIDIA Riva 部署

NVIDIA Riva 是一個加速語音 AI SDK，可在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上部署。

此外，Riva 還提供：

針對最常見語言的世界級開箱即用準確性，模型檢查點在專有數據上進行了數十萬 GPU 計算小時的訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製的一流準確性。
流式語音識別、Kubernetes 兼容擴展和企業級支持。

雖然該模型目前尚未得到 Riva 的支持，但支持的模型列表在此。請查看 Riva 即時演示。

🔧 技術細節

模型類型

FastConformer Transducer

訓練數據

該模型在 64000 小時的英語語音上進行訓練，包括私有子集和多個公共數據集，如 Librispeech、Fisher Corpus 等。

屬性	詳情
模型類型	FastConformer Transducer
訓練數據	由 NVIDIA NeMo 和 Suno 團隊收集和準備的 64000 小時英語語音，包括私有子集和多個公共數據集，如 Librispeech、Fisher Corpus 等。