🚀 NVIDIA Conformer-Transducer Large (de)
該模型是用於德語自動語音識別的大型模型,基於Conformer-Transducer架構,在多個德語語音數據集上進行訓練,能以較低的詞錯誤率完成語音轉錄任務。
🚀 快速開始
本模型可用於德語語音的自動識別任務,以下是使用該模型的基本步驟和示例代碼。
✨ 主要特性
- 架構先進:採用Conformer-Transducer架構,結合了卷積和Transformer的優勢,適用於自動語音識別任務。
- 多數據集訓練:在多個德語語音數據集上進行訓練,包括VoxPopuli、Multilingual Librispeech和Mozilla Common Voice等,提升了模型的泛化能力。
- 低詞錯誤率:在多個測試集上取得了較低的詞錯誤率(WER),如在common-voice-7-0測試集上WER為4.93,在Multilingual LibriSpeech測試集上WER為3.85。
📦 安裝指南
要訓練、微調或使用該模型,需要安裝NVIDIA NeMo庫。建議在安裝最新版本的PyTorch之後進行安裝。
pip install nemo_toolkit['all']
💻 使用示例
基礎用法
自動實例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")
高級用法
單音頻文件轉錄
首先,獲取一個音頻樣本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然後進行轉錄
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
多音頻文件轉錄
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py
pretrained_name="nvidia/stt_de_conformer_transducer_large"
audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
輸入輸出說明
- 輸入:該模型接受16000 KHz單聲道音頻(wav文件)作為輸入。
- 輸出:該模型為給定的音頻樣本提供轉錄後的語音字符串。
📚 詳細文檔
模型架構
Conformer-Transducer模型是Conformer模型的自迴歸變體,用於自動語音識別,使用Transducer損失/解碼而不是CTC損失。更多詳細信息可參考:Conformer-Transducer Model。
訓練過程
使用NeMo工具包進行了數百個epoch的訓練。模型使用示例腳本和基礎配置進行訓練。
數據集
該模型在一個複合數據集(NeMo ASRSET)上進行訓練,該數據集包含數千小時的德語語音:
- VoxPopuli (DE) 200小時子集
- Multilingual Librispeech (MLS DE) - 1500小時子集
- Mozilla Common Voice (v7.0)
性能表現
該模型集合中可用模型的性能以詞錯誤率(WER%)報告,採用貪心解碼。
版本 |
分詞器 |
詞彙表大小 |
MCV7.0 dev |
MCV7.0 test |
MLS dev |
MLS test |
Voxpopuli dev |
Voxpopuli test |
1.6.0 |
SentencePiece Unigram |
1024 |
4.40 |
4.93 |
3.22 |
3.85 |
11.04 |
8.85 |
侷限性
由於該模型是在公開可用的語音數據集上訓練的,對於包含技術術語或方言的語音,模型性能可能會下降。此外,對於帶有口音的語音,模型性能也可能較差。
NVIDIA Riva部署
NVIDIA Riva是一個加速的語音AI SDK,可部署在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上。此外,Riva提供:
- 針對最常見語言的世界級開箱即用準確率,使用專有數據進行訓練的模型檢查點,經過數十萬小時的GPU計算。
- 一流的準確率,支持運行時單詞增強(如品牌和產品名稱),以及聲學模型、語言模型和逆文本歸一化的定製。
- 流式語音識別、Kubernetes兼容的擴展和企業級支持。
雖然該模型目前尚未得到Riva的支持,但支持的模型列表在此。查看Riva即時演示。
🔧 技術細節
模型的技術細節可參考以下論文和文檔:
📄 許可證
使用該模型的許可證為CC-BY-4.0。下載該模型的公開版本即表示您接受CC-BY-4.0許可證的條款和條件。