Parakeet Rnnt 1.1b

P

Parakeet Rnnt 1.1b

由nvidia開發

Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer Transducer架構，參數約11億，支持英語語音轉錄。

英語#高精度語音識別 #大參數量模型 #多領域適配

下載量 13.18k

發布時間 : 12/27/2023

模型概述

該模型用於將英語語音轉錄為小寫英文字母文本，在多個公開數據集上表現出色。

模型特點

高性能語音識別

在多個公開測試集上取得領先的詞錯誤率(WER)表現

大規模訓練數據

使用總計64K小時的英語語音數據進行訓練，包括多個公開數據集

優化的模型架構

採用FastConformer架構，具有8倍深度可分離卷積下采樣

多任務訓練

使用轉換器解碼器(RNNT)損失在多任務設置中進行訓練

模型能力

英語語音識別

音頻轉錄

自動語音轉文本

使用案例

語音轉錄

會議記錄

自動轉錄會議錄音

在AMI測試集上WER為17.10%

語音轉文字服務

為音頻內容生成文字稿

在LibriSpeech測試集上WER低至1.46%

語音助手

為語音助手提供語音識別能力

在Common Voice測試集上WER為5.79%

🚀 Parakeet RNNT 1.1B (en)

parakeet-rnnt-1.1b 是一個自動語音識別（ASR）模型，可將語音轉錄為小寫英文字母。該模型由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發。它是 FastConformer Transducer [1] 的 XXL 版本（約 11 億參數）模型。有關完整的架構細節，請參閱模型架構部分和 NeMo 文檔。

🚀 快速開始

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。我們建議你在安裝最新版本的 PyTorch 之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

專為英文語音轉錄設計，輸出小寫英文字母。
基於 FastConformer Transducer 架構，參數約 11 億。
由 NVIDIA NeMo 和 Suno.ai 團隊聯合開發。

📦 安裝指南

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的 PyTorch 之後進行安裝：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/parakeet-rnnt-1.1b")

高級用法

轉錄單個音頻文件

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/parakeet-rnnt-1.1b" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 詳細文檔

輸入

該模型接受 16000 Hz 單聲道音頻（wav 文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

🔧 技術細節

模型架構

FastConformer [1] 是 Conformer 模型的優化版本，具有 8 倍深度可分離卷積下采樣。該模型在多任務設置中使用 Transducer 解碼器（RNNT）損失進行訓練。你可以在Fast-Conformer Model中找到有關 FastConformer 詳細信息。

訓練

使用 NeMo 工具包 [3] 對模型進行了數百個 epoch 的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器使用訓練集的文本轉錄通過腳本構建。

數據集

該模型在由 NVIDIA NeMo 和 Suno 團隊收集和準備的 64000 小時英文語音上進行訓練。

訓練數據集由一個 40000 小時英文語音的私有子集和來自以下公共數據集的 24000 小時語音組成：

Librispeech：960 小時英文語音
Fisher Corpus
Switchboard-1 數據集
WSJ-0 和 WSJ-1
國家語音語料庫（第 1 部分，第 6 部分）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
多語言 Librispeech（MLS EN） - 2000 小時子集
Mozilla Common Voice（v7.0）
People's Speech - 12000 小時子集

性能

自動語音識別模型的性能使用詞錯誤率（WER）進行衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此在一般音頻轉錄方面通常表現更好。

以下表格總結了該集合中使用 Transducer 解碼器的可用模型的性能。ASR 模型的性能以詞錯誤率（WER%）的形式報告，採用貪心解碼。

版本	分詞器	詞彙表大小	AMI	Earnings-22	Giga Speech	LS test-clean	SPGI Speech	TEDLIUM-v3	Vox Populi	Common Voice
1.22.0	SentencePiece Unigram	1024	17.10	14.11	9.96	1.46	2.47	3.11	3.92	5.39

這些是沒有外部語言模型的貪心 WER 數值。有關評估的更多詳細信息，請參閱HuggingFace ASR 排行榜。

NVIDIA Riva 部署

NVIDIA Riva 是一個加速的語音 AI SDK，可在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上部署。

此外，Riva 還提供：

針對最常見語言的世界級開箱即用準確性，模型檢查點在專有數據上進行了數十萬 GPU 計算小時的訓練。
具有運行時詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製的一流準確性。
流式語音識別、Kubernetes 兼容擴展和企業級支持。

雖然該模型目前不受 Riva 支持，但支持的模型列表在此。請查看 Riva 即時演示。

📄 許可證

使用此模型的許可受 CC-BY-4.0 許可協議的約束。通過下載該模型的公共和發佈版本，即表示你接受 CC-BY-4.0 許可協議的條款和條件。

參考資料

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition

[2] Google Sentencepiece Tokenizer

[3] NVIDIA NeMo Toolkit

[5] HuggingFace ASR Leaderboard

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase