stt_be_fastconformer_hybrid_large_pc開源模型 - 精準實現白俄羅斯語自動語音識別

首頁

Stt Be Fastconformer Hybrid Large Pc

由nvidia開發

這是一個基於FastConformer架構的大型白俄羅斯語自動語音識別模型，結合了轉換器和CTC解碼器損失，在1500小時白俄羅斯語音數據上訓練。

語音識別

PyTorch

其他#白俄羅斯語語音識別 #高精度WER2.72 #混合轉換器-CTC

下載量 33

發布時間 : 5/19/2023

模型概述

該模型用於轉錄包含大小寫白俄羅斯字母、空格和基本標點符號的語音，支持16kHz單聲道音頻輸入。

模型特點

混合訓練架構

同時使用轉換器和CTC解碼器損失進行訓練，結合兩種方法的優勢

高效處理

採用8倍深度可分離卷積下采樣的FastConformer架構，優化處理速度

高準確率

在Common Voice 12.0白俄羅斯語測試集上達到2.72%的WER（不含標點）

模型能力

白俄羅斯語語音識別

音頻轉錄

標點符號預測

使用案例

語音轉錄

語音轉文字

將白俄羅斯語語音內容轉換為文本

準確率高達97.28%（不含標點）

語音助手

語音指令識別

用於白俄羅斯語語音助手系統中的命令識別

🚀 NVIDIA FastConformer-Hybrid Large (be)

本模型可將語音轉錄為大小寫白俄羅斯語字母，同時支持空格、句號、逗號和問號。它是FastConformer Transducer - CTC的“大型”版本（約1.15億參數），是一個基於兩種損失（Transducer（默認）和CTC）訓練的混合模型。欲瞭解完整的架構細節，請參閱模型架構部分和NeMo文檔。

| | |

🚀 快速開始

本部分將介紹如何安裝必要的工具包以及如何使用該模型進行語音轉錄。

安裝NVIDIA NeMo

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

使用模型進行語音轉錄

自動實例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")

使用Python進行轉錄

首先，獲取一個音頻樣本：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後，進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

✨ 主要特性

語言支持：能夠處理白俄羅斯語語音，轉錄結果包含大小寫字母、空格、句號、逗號和問號。
模型架構：採用FastConformer Transducer - CTC架構，約1.15億參數，是一個混合模型，基於Transducer和CTC兩種損失進行訓練。
多任務訓練：在多任務設置下進行訓練，結合了聯合Transducer和CTC解碼器損失。

📦 安裝指南

若要訓練、微調或使用該模型，需安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")

高級用法

轉錄單個音頻文件

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_be_fastconformer_hybrid_large_pc")
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_be_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 詳細文檔

輸入

本模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

本模型為給定的音頻樣本提供轉錄後的語音字符串。

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置下進行訓練，結合了聯合Transducer和CTC解碼器損失。你可以在以下鏈接找到關於FastConformer的更多詳細信息：Fast - Conformer Model 以及關於混合Transducer - CTC訓練的信息：Hybrid Transducer - CTC。