stt_de_fastconformer_hybrid_large_pc開源德語語音識別模型

首頁

Stt De Fastconformer Hybrid Large Pc

由nvidia開發

這是一個基於FastConformer架構的德語自動語音識別模型，採用轉換器和CTC混合訓練方式，參數規模約115M。

語音識別德語#德語語音識別 #混合CTC-轉換器 #高精度WER

下載量 1,017

發布時間 : 5/4/2023

模型概述

該模型用於德語語音轉錄，支持大小寫字母、空格及基本標點符號的識別。是NVIDIA NeMo工具包中的預訓練模型。

模型特點

混合訓練架構

同時使用轉換器和CTC解碼器進行訓練，結合兩種損失函數的優勢

優化的FastConformer

採用8倍深度可分離卷積下采樣，相比標準Conformer模型更高效

多數據集訓練

在2500小時的複合德語數據集上訓練，包含MCV12、MLS和Voxpopuli

標點符號支持

能夠識別句號、逗號和問號等基本標點符號

模型能力

德語語音識別

標點符號識別

大小寫字母識別

使用案例

語音轉錄

語音轉文字

將德語語音內容轉換為文本

在MCV12測試集上WER為5.1%

會議記錄

自動生成會議語音的文字記錄

語音分析

語音內容分析

為後續的語音內容分析提供文本基礎

🚀 NVIDIA FastConformer-Hybrid Large (de)

該模型可用於德語語音識別，支持大小寫字母、空格、句號、逗號和問號的轉錄。它是FastConformer Transducer - CTC的“大型”版本，約有1.15億個參數，是一個結合了Transducer和CTC兩種損失函數進行訓練的混合模型。

🚀 快速開始

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

支持德語語音轉錄，輸出包含大小寫字母、空格、句號、逗號和問號。
採用FastConformer架構，是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。
多任務訓練，結合了Transducer和CTC解碼器損失。

📦 安裝指南

安裝 NVIDIA NeMo：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_de_fastconformer_hybrid_large_pc")

高級用法

用Python轉錄單個音頻

首先，獲取一個示例音頻：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

輸入

該模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

📚 詳細文檔

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中進行訓練，結合了Transducer和CTC解碼器損失。你可以在以下鏈接找到更多關於FastConformer的詳細信息：Fast - Conformer Model 以及關於混合Transducer - CTC訓練的信息：Hybrid Transducer - CTC。