NVIDIA FastConformer-Hybrid Large (ua)開源模型 - 高效實現烏克蘭語語音識別

Home

Stt Ua Fastconformer Hybrid Large Pc

Developed by nvidia

NVIDIA FastConformer-Hybrid Large (ua) 是一個用於烏克蘭語語音識別的混合模型，結合了Transducer和CTC兩種損失函數訓練，參數約1.15億。

語音識別 #烏克蘭語語音轉寫 #混合損失訓練 #FastConformer架構

Downloads 381

Release Time : 5/15/2023

Model Overview

該模型能夠將烏克蘭語語音轉錄為包含大小寫字母、空格、句號、逗號和問號的文本，適用於語音識別任務。

Model Features

混合模型訓練

結合Transducer和CTC兩種損失函數訓練，提升模型性能。

支持標點符號

輸出文本包含大小寫字母及常用標點符號（句號、逗號、問號）。

高效架構

採用FastConformer架構，優化了計算效率。

Model Capabilities

烏克蘭語語音識別

標點符號生成

大小寫字母轉換

Use Cases

語音轉錄

音頻文件轉錄

將烏克蘭語語音文件轉錄為文本。

輸出包含標點符號和大小寫的文本。

多文件批量處理

批量音頻轉錄

支持批量處理多個音頻文件，提高效率。

🚀 NVIDIA FastConformer-Hybrid Large (ua)

本模型可將烏克蘭語語音轉錄為包含大小寫字母、空格、句號、逗號和問號的文本。它是FastConformer Transducer - CTC的“大型”版本（約1.15億個參數），這是一個基於Transducer（默認）和CTC兩種損失函數訓練的混合模型。如需瞭解完整的架構細節，請參閱模型架構部分和NeMo文檔。

🚀 快速開始

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。我們建議你在安裝最新版本的Pytorch後再進行安裝。

pip install nemo_toolkit['all']

✨ 主要特性

能夠轉錄烏克蘭語語音，輸出包含大小寫字母及常用標點符號的文本。
採用FastConformer Transducer - CTC架構，約1.15億個參數。
基於兩種損失函數（Transducer和CTC）訓練的混合模型。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch後再進行安裝，安裝命令如下：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ua_fastconformer_hybrid_large_pc")

高級用法

轉錄單個音頻文件

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ua_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 詳細文檔

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中進行訓練，結合了Transducer和CTC解碼器損失。你可以在以下鏈接找到更多關於FastConformer的詳細信息：Fast - Conformer Model 以及關於混合Transducer - CTC訓練的信息：Hybrid Transducer - CTC。