Stt En Fastconformer Transducer Large

S

Stt En Fastconformer Transducer Large

由nvidia開發

這是一個基於FastConformer架構的大型自動語音識別(ASR)模型，專門用於將英語語音轉錄為文本。

英語#高精度語音識別 #多領域適配 #FastConformer架構

下載量 1,398

發布時間 : 6/8/2023

模型概述

該模型採用優化的FastConformer架構和Transducer解碼器，能夠高效準確地將英語語音轉換為文本。

模型特點

優化的FastConformer架構

採用8倍深度可分離卷積下采樣，相比標準Conformer模型更高效

多數據集訓練

在包含數千小時英語語音的綜合數據集上訓練，覆蓋多種語音場景

高性能

在多個標準測試集上表現出色，如LibriSpeech測試集WER低至1.8%

易於使用

提供簡單的Python API進行語音轉錄，支持批量處理

模型能力

英語語音識別

音頻轉錄

批量語音處理

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

媒體字幕生成

為視頻和播客內容自動生成字幕

語音分析

客服對話分析

轉錄和分析客服電話內容

🚀 NVIDIA FastConformer-Transducer Large (en)

本模型用於將語音轉錄為小寫英文字符串。它是FastConformer Transducer的“大型”版本（約1.14億個參數）。有關完整的架構詳細信息，請參閱模型架構部分和NeMo文檔。

🚀 快速開始

要使用本模型進行訓練、微調或測試，你需要安裝 NVIDIA NeMo。我們建議你在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

本模型可將語音轉錄為小寫英文。
採用FastConformer架構，是優化版的Conformer模型，具有8倍深度可分離卷積下采樣。
在多任務設置中使用Transducer解碼器損失進行訓練。

📦 安裝指南

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再進行安裝。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_transducer_large")

高級用法

使用Python進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_fastconformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 詳細文檔

輸入

本模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

本模型為給定的音頻樣本提供轉錄後的語音字符串。

🔧 技術細節

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中使用Transducer解碼器損失進行訓練。你可以在Fast-Conformer Model中找到有關FastConformer詳細信息。

訓練

使用NeMo工具包 [3] 對模型進行了數百個epoch的訓練。這些模型使用此示例腳本和此基礎配置進行訓練。

這些模型的分詞器是使用訓練集的文本轉錄，通過此腳本構建的。

數據集

本集合中的模型在一個複合數據集（NeMo ASRSet En）上進行訓練，該數據集包含數千小時的英語語音：

Librispeech：960小時的英語語音
Fisher Corpus
Switchboard-1 Dataset
WSJ-0 和 WSJ-1
National Speech Corpus（第1部分，第6部分）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
Multilingual Librispeech（MLS EN） - 2000小時子集
Mozilla Common Voice（v7.0）
People's Speech - 12000小時子集

性能

自動語音識別模型的性能使用字錯誤率（Word Error Rate）來衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此在一般情況下，它在轉錄音頻方面通常會表現得更好。

以下表格總結了本集合中使用Transducer解碼器的可用模型的性能。ASR模型的性能以字錯誤率（WER%）的形式報告，採用貪心解碼。

版本	分詞器	詞彙表大小	LS test-other	LS test-clean	WSJ Eval92	WSJ Dev93	NSC Part 1	MLS Test	MCV Test 7.0	訓練數據集
1.18.0	SentencePiece Unigram	1024	3.8	1.8	1.4	2.4	5.5	5.8	7.5	NeMo ASRSET 3.0

侷限性

由於該模型是在公開可用的語音數據集上訓練的，因此對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。該模型對於帶有口音的語音的表現也可能較差。

NVIDIA Riva部署

NVIDIA Riva 是一個加速的語音AI SDK，可部署在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上。此外，Riva還提供：

針對最常見語言的開箱即用的世界級準確性，模型檢查點在專有數據上進行了數十萬小時的GPU計算訓練。
具有運行時單詞增強（例如，品牌和產品名稱）以及聲學模型、語言模型和逆文本規範化的定製功能，實現一流的準確性。
流式語音識別、Kubernetes兼容的擴展和企業級支持。

雖然此模型目前尚未得到Riva的支持，但支持的模型列表在此。
查看 Riva即時演示。

📄 許可證

使用此模型的許可受 CC-BY-4.0 許可協議的約束。通過下載該模型的公開版本，即表示你接受 CC-BY-4.0 許可協議的條款和條件。

參考文獻

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition

[2] Google Sentencepiece Tokenizer

[3] NVIDIA NeMo Toolkit

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase