stt_en_conformer_transducer_xlarge開源英語語音轉錄模型

首頁

Stt En Conformer Transducer Xlarge

由nvidia開發

這是一個由NVIDIA開發的自動語音識別(ASR)模型，基於Conformer-Transducer架構，擁有約6億參數，專門用於英語語音轉錄。

語音識別

PyTorch

英語#高精度語音識別 #多數據集訓練 #英語語音轉寫

下載量 496

發布時間 : 6/13/2022

模型概述

該模型將語音轉錄為小寫英文字母，包括空格和撇號，是Conformer-Transducer模型的'超大'版本。

模型特點

高性能語音識別

在多個測試集上表現出色，如LibriSpeech clean測試集WER僅為1.62

大規模訓練數據

在包含數千小時英語語音的複合數據集(NeMo ASRSET)上訓練

支持多種音頻格式

接受16KHz單聲道音頻(wav文件)作為輸入

模型能力

英語語音識別

音頻轉錄

自動語音轉文本

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

高準確率的轉錄結果

語音筆記轉換

將語音備忘錄轉換為可搜索的文本

語音助手

語音命令識別

用於智能設備的語音命令識別系統

🚀 NVIDIA Conformer-Transducer X-Large (en-US)

該模型可將語音轉錄為小寫英文文本，支持空格和撇號。它是Conformer - Transducer的“超大”版本模型（約6億參數）。如需瞭解完整的架構細節，請參閱模型架構部分和NeMo文檔。

🚀 快速開始

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

(如果出現錯誤): 
pip install nemo_toolkit[all]

✨ 主要特性

可將語音轉錄為小寫英文文本，支持空格和撇號。
屬於Conformer - Transducer的“超大”版本模型，約6億參數。

📦 安裝指南

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

(如果出現錯誤): 
pip install nemo_toolkit[all]

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_en_conformer_transducer_xlarge")

高級用法

使用Python進行轉錄

首先，獲取一個樣本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後簡單執行以下操作：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_conformer_transducer_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 詳細文檔

輸入

該模型接受16000 KHz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

🔧 技術細節

模型架構

Conformer - Transducer模型是用於自動語音識別的Conformer模型[1]的自迴歸變體，它使用Transducer損失/解碼而不是CTC損失。你可以在Conformer - Transducer模型中找到關於該模型細節的更多信息。

訓練

使用NeMo工具包[3]對模型進行了數百個epoch的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器是使用訓練集的文本轉錄，通過腳本構建的。

數據集

此集合中的所有模型都在一個複合數據集（NeMo ASRSET）上進行訓練，該數據集包含數千小時的英語語音：

Librispeech：960小時的英語語音
Fisher語料庫
Switchboard - 1數據集
WSJ - 0和WSJ - 1
國家語音語料庫（第1部分、第6部分）
VCTK
VoxPopuli（英語）
Europarl - ASR（英語）
多語言Librispeech（MLS英語） - 2000小時子集
Mozilla Common Voice（v8.0）
People's Speech - 12000小時子集

注意：舊版本的模型可能在較小的數據集上進行訓練。

性能

此集合中可用模型的列表如下表所示。ASR模型的性能以單詞錯誤率（WER%）和貪心解碼的方式報告。

版本	分詞器	詞彙量大小	LS test - other	LS test - clean	WSJ Eval92	WSJ Dev93	NSC Part 1	MLS Test	MLS Dev	MCV Test 8.0	訓練數據集
1.10.0	SentencePiece Unigram	1024	3.01	1.62	1.17	2.05	5.70	5.32	4.59	6.46	NeMo ASRSET 3.0

侷限性

由於該模型是在公開可用的語音數據集上訓練的，對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。該模型對於帶口音的語音表現可能也會更差。

NVIDIA Riva：部署

NVIDIA Riva是一個加速語音AI SDK，可在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上部署。此外，Riva還提供：

針對最常見語言的世界級開箱即用準確率，其模型檢查點在專有數據上進行了數十萬GPU計算小時的訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製功能的一流準確率。
流式語音識別、Kubernetes兼容擴展和企業級支持。

雖然該模型目前尚未得到Riva的支持，但支持的模型列表在此。你可以查看 Riva即時演示。

參考資料

[1] Conformer: Convolution - augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

📄 許可證

使用此模型的許可受CC - BY - 4.0許可協議的約束。通過下載該模型的公開和發佈版本，即表示你接受CC - BY - 4.0許可協議的條款和條件。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫