Stt En Fastconformer Ctc Xlarge

S

Stt En Fastconformer Ctc Xlarge

由nvidia開發

NVIDIA FastConformer-CTC XLarge是一個約6億參數的自動語音識別(ASR)模型，專為英語語音轉錄設計，採用FastConformer架構和CTC損失訓練。

語音識別英語#高精度語音識別 #多領域適配 #FastConformer架構

下載量 216

發布時間 : 6/12/2023

模型概述

該模型能夠將英語語音轉錄為小寫字母文本，在多個公開數據集上表現出色，適用於通用音頻轉錄任務。

模型特點

優化的FastConformer架構

採用8倍深度可分離卷積下采樣，相比標準Conformer模型有顯著優化

多數據集訓練

在包含數千小時英語語音的複合數據集上訓練，覆蓋多種領域和口音

高性能表現

在LibriSpeech測試集上達到1.8% (clean)和3.65% (other)的詞錯誤率

模型能力

英語語音識別

音頻轉錄

支持16kHz單聲道音頻輸入

使用案例

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

高準確率的轉錄結果

語音筆記

將語音筆記轉換為可搜索的文本

輔助技術

即時字幕生成

為視頻或直播內容生成即時字幕

🚀 NVIDIA FastConformer-CTC XLarge (en)

該模型能夠將語音轉錄為小寫英文字母。它是FastConformer CTC的“超大”版本（約6億個參數）。有關完整的架構細節，請參閱模型架構部分和NeMo文檔。

🚀 快速開始

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。我們建議你在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

能夠將語音準確轉錄為小寫英文字母。
採用FastConformer CTC架構，擁有約6億個參數。
可用於推理或在其他數據集上進行微調。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再進行安裝，安裝命令如下：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCTBPEModel.from_pretrained(model_name="nvidia/stt_en_fastconformer_ctc_xlarge")

高級用法

使用Python進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_fastconformer_ctc_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 詳細文檔

輸入

該模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

該模型會為給定的音頻樣本提供轉錄後的語音字符串。

🔧 技術細節

模型架構

FastConformer [1]是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型使用CTC損失進行訓練。你可以在Fast-Conformer Model中找到有關FastConformer詳細信息。

訓練

使用NeMo工具包 [3]對模型進行了數百個epoch的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器是使用訓練集的文本轉錄，通過腳本構建的。

數據集

此集合中的模型在一個複合數據集（NeMo ASRSet En）上進行訓練，該數據集包含數千小時的英語語音：

Librispeech：960小時的英語語音
Fisher語料庫
Switchboard - 1數據集
WSJ - 0和WSJ - 1
國家語音語料庫（第1部分、第6部分）
VCTK
VoxPopuli（英語）
Europarl - ASR（英語）
多語言Librispeech（MLS英語） - 2000小時子集
Mozilla Common Voice（v7.0）
People's Speech - 12000小時子集

性能

自動語音識別模型的性能通過單詞錯誤率（WER）來衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此通常在轉錄一般音頻時表現更好。

以下表格總結了此集合中可用模型在使用Transducer解碼器時的性能。ASR模型的性能以單詞錯誤率（WER%）和貪心解碼的方式報告。

版本	分詞器	詞彙表大小	LS test - other	LS test - clean	WSJ Eval92	WSJ Dev93	NSC Part 1	MLS Test	MCV Test 7.0	訓練數據集
1.20.0	SentencePiece Unigram	1024	3.65	1.8	1.32	2.42	6.60	5.87	7.73	NeMo ASRSET 3.0

侷限性

由於該模型是在公開可用的語音數據集上進行訓練的，因此對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。對於帶有口音的語音，模型的表現可能也會更差。

NVIDIA Riva部署

NVIDIA Riva是一個加速語音AI SDK，可部署在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上。此外，Riva還提供：

針對最常見語言的開箱即用的世界級準確率，其模型檢查點在專有數據上進行了數十萬小時的GPU計算訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製的一流準確率。
流式語音識別、Kubernetes兼容的擴展和企業級支持。

雖然此模型目前尚未得到Riva的支持，但支持的模型列表在此。請查看Riva即時演示。

📄 許可證

使用此模型的許可受CC - BY - 4.0許可協議的約束。通過下載該模型的公開版本，即表示你接受CC - BY - 4.0許可協議的條款和條件。

參考文獻

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase