stt_en_conformer_ctc_large開源語音轉錄模型 - 免費部署實現英語語音精準識別

首頁

Stt En Conformer Ctc Large

由nvidia開發

這是一個基於Conformer架構的大型自動語音識別(ASR)模型，支持英語語音轉錄，使用CTC損失函數進行訓練。

語音識別

PyTorch

英語#高精度語音識別 #多數據集訓練 #非自迴歸模型

下載量 3,740

發布時間 : 4/9/2022

模型概述

該模型用於將英語語音轉錄為文本，支持包含空格和撇號的小寫字母輸出。基於Conformer架構的非自迴歸變體，約1.2億參數。

模型特點

高性能語音識別

在LibriSpeech測試集上達到2.2%(乾淨)和4.3%(其他)的詞錯誤率(WER)

多數據集訓練

在數千小時的英語語音數據上訓練，包括LibriSpeech、Fisher、Switchboard等多個數據集

Riva兼容

支持通過NVIDIA Riva進行生產級服務器部署

非自迴歸架構

採用Conformer-CTC架構，相比自迴歸模型具有更快的推理速度

模型能力

英語語音識別

即時語音轉錄

支持16kHz單聲道音頻輸入

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

高準確率的轉錄結果，支持多種口音

字幕生成

為視頻內容自動生成英文字幕

在乾淨語音上WER低至2.2%

語音助手

語音命令識別

用於智能家居設備的語音控制

快速準確的命令識別

🚀 NVIDIA Conformer-CTC Large (en-US)

本模型可將語音轉錄為包含空格和撇號的小寫英文字母，它在數千小時的英語語音數據上進行了訓練。它是Conformer的非自迴歸“大型”變體，約有1.2億個參數。查看模型架構部分和NeMo文檔，可瞭解完整的架構細節。此外，它還與NVIDIA Riva兼容，可用於生產級服務器部署。

| | | | |

🚀 快速開始

本模型可在NeMo工具包[3]中使用，可作為預訓練檢查點用於推理，或在其他數據集上進行微調。

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

可將語音轉錄為包含空格和撇號的小寫英文字母。
基於Conformer的非自迴歸“大型”變體，約有1.2億個參數。
與NVIDIA Riva兼容，適用於生產級服務器部署。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_en_conformer_ctc_large")

使用Python進行轉錄

首先，獲取一個樣本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，簡單執行以下操作：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

輸入

該模型接受16000 kHz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

📚 詳細文檔

模型架構

Conformer-CTC模型是用於自動語音識別的Conformer模型[1]的非自迴歸變體，它使用CTC損失/解碼而不是Transducer。你可以在Conformer-CTC模型中找到該模型的更多詳細信息。

訓練

NeMo工具包[3]用於對模型進行數百個epoch的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器使用訓練集的文本轉錄，通過腳本構建。

用作神經重評分器的語言模型的檢查點可在此處找到。你可以在ASR語言建模中找到有關如何為ASR模型訓練和使用語言模型的更多信息。

數據集

本集合中的所有模型都在一個複合數據集（NeMo ASRSET）上進行訓練，該數據集包含數千小時的英語語音：

Librispeech：960小時的英語語音
Fisher語料庫
Switchboard-1數據集
WSJ-0和WSJ-1
國家語音語料庫（第1部分、第6部分）
VCTK
VoxPopuli（英語）
Europarl-ASR（英語）
多語言Librispeech（MLS英語） - 2000小時子集
Mozilla Common Voice（v7.0）

注意：舊版本的模型可能在較小的數據集上進行訓練。

性能

本集合中可用模型的列表如下表所示。ASR模型的性能以單詞錯誤率（WER%）報告，採用貪心解碼。

版本	分詞器	詞彙量大小	LS test-other	LS test-clean	WSJ Eval92	WSJ Dev93	NSC Part 1	MLS Test	MLS Dev	MCV Test 6.1	訓練數據集
1.6.0	SentencePiece Unigram	128	4.3	2.2	2.0	2.9	7.0	7.2	6.5	8.0	NeMo ASRSET 2.0

在使用NVIDIA Riva進行部署時，你可以將此模型與外部語言模型結合使用，以進一步降低WER。下表報告了最新模型在不同語言建模技術下的WER(%)。

語言建模	訓練數據集	LS test-other	LS test-clean	註釋
N-gram LM	LS Train + LS LM Corpus	3.5	1.8	N=10, beam_width=128, n_gram_alpha=1.0, n_gram_beta=1.0
神經重評分器（Transformer）	LS Train + LS LM Corpus	3.4	1.7	N=10, beam_width=128
N-gram + 神經重評分器（Transformer）	LS Train + LS LM Corpus	3.2	1.8	N=10, beam_width=128, n_gram_alpha=1.0, n_gram_beta=1.0