stt_de_conformer_ctc_large開源模型 - 免費實現精準德語自動語音識別

首頁

Stt De Conformer Ctc Large

由nvidia開發

這是一個用於德語自動語音識別的大規模Conformer-CTC模型，由NVIDIA訓練並在數千小時的德語語音數據上進行優化。

語音識別

PyTorch

德語#德語語音識別 #大參數模型 #多數據集訓練

下載量 132

發布時間 : 6/28/2022

模型概述

該模型能夠轉錄德語語音為小寫字母文本（包括空格），採用Conformer架構的非自迴歸變體，具有約1.2億參數。

模型特點

大規模訓練數據

在數千小時的德語語音數據上訓練，包括VoxPopuli、多語言LibriSpeech和Mozilla Common Voice數據集。

高性能

在多個測試集上表現出色，如Common Voice 7測試集的WER為6.68%。

Riva兼容

與NVIDIA Riva兼容，可用於生產級服務器部署。

非自迴歸架構

採用Conformer的非自迴歸變體，使用CTC損失/解碼，適合高效語音識別。

模型能力

德語語音識別

音頻轉錄

支持16kHz單聲道音頻輸入

使用案例

語音轉錄

會議記錄

將德語會議錄音自動轉錄為文字記錄

高準確率的轉錄文本

語音助手

為德語語音助手提供語音識別能力

即時準確的語音轉文字

媒體處理

字幕生成

為德語視頻內容自動生成字幕

高效準確的同步字幕

🚀 NVIDIA Conformer-CTC Large (de)

本模型可將德語語音轉錄為小寫字母形式，包含空格。它在數千小時的德語語音數據上進行了訓練。Conformer-CTC Large是Conformer模型的非自迴歸“大型”變體，約有1.2億個參數。如需瞭解完整的架構細節，請參閱模型架構部分和NeMo文檔。此外，該模型還與NVIDIA Riva兼容，可用於生產級服務器部署。

🚀 快速開始

本模型可在NeMo工具包[3]中使用，可作為預訓練檢查點進行推理，或在其他數據集上進行微調。

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

可將德語語音轉錄為小寫字母形式，包含空格。
基於Conformer模型的非自迴歸“大型”變體，約有1.2億個參數。
與NVIDIA Riva兼容，可用於生產級服務器部署。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_de_conformer_ctc_large")

高級用法

使用Python進行轉錄

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"