stt_ru_fastconformer_hybrid_large_pc開源俄語語音識別模型

首頁

Stt Ru Fastconformer Hybrid Large Pc

由nvidia開發

這是一個用於俄語自動語音識別的FastConformer混合模型，結合了Transducer和CTC解碼器，參數規模約1.15億。

語音識別

PyTorch

其他#俄語語音識別 #混合Transducer-CTC #高精度WER

下載量 6,513

發布時間 : 5/26/2023

模型概述

該模型能夠轉錄包含大小寫俄語字母、空格和基本標點符號的語音，適用於俄語語音識別任務。

模型特點

混合訓練架構

同時使用Transducer和CTC兩種損失函數進行訓練，提高模型魯棒性

優化的FastConformer

採用8倍深度可分離卷積下采樣的優化Conformer架構，提高處理效率

多數據集訓練

在包含1840小時俄語語音的複合數據集上訓練，覆蓋多種語音場景

模型能力

俄語語音識別

標點符號預測

大小寫識別

使用案例

語音轉錄

俄語語音轉文本

將俄語語音內容轉換為文本格式

在Common Voice 12.0測試集上WER為5.3

語音助手

俄語語音指令識別

識別和理解俄語語音命令

在Golos crowd測試集上WER低至1.9

🚀 NVIDIA FastConformer-Hybrid Large (ru)

本項目是一個用於俄語自動語音識別的模型，基於FastConformer架構，結合了Transducer和CTC損失進行訓練，在多個俄語語音數據集上表現出色。

🚀 快速開始

若要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的Pytorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

能夠轉錄包含大小寫俄語字母、空格、句號、逗號和問號的語音。
採用FastConformer Transducer - CTC架構的“大型”版本，約有1.15億個參數。
結合了Transducer和CTC兩種損失進行多任務訓練。

📦 安裝指南

安裝 NVIDIA NeMo，使用以下命令：

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_ru_fastconformer_hybrid_large_pc")

高級用法

用Python轉錄語音

首先，獲取一個示例音頻文件：

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然後進行轉錄：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

轉錄多個音頻文件

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

輸入

該模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

📚 詳細文檔

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中進行訓練，結合了聯合Transducer和CTC解碼器損失。你可以在以下鏈接找到更多關於FastConformer的詳細信息：Fast - Conformer Model 以及關於混合Transducer - CTC訓練的信息：Hybrid Transducer - CTC。

訓練

使用NeMo工具包 [3] 對模型進行了數百個epoch的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器使用訓練集的文本轉錄通過腳本構建。

數據集

本集合中的所有模型都在一個複合數據集（NeMo PnC ASRSET）上進行訓練，該數據集包含1840小時的俄語語音：

Golos (1200小時)
Sova (310小時)
Dusha (200小時)
RULS (92.5小時)
MCV12 (36.7小時)

性能

自動語音識別模型的性能通過單詞錯誤率（WER）來衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此在一般音頻轉錄方面通常表現更好。

以下表格總結了本集合中可用模型在使用Transducer解碼器時的性能。ASR模型的性能以貪婪解碼的單詞錯誤率（WER%）報告。

a) 在無標點和大寫的數據上使用Transducer解碼器

版本	分詞器	詞彙表大小	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST	GOLOS TEST FARFIELD	GOLOS TEST CROWD	DUSHA TEST
1.18.0	SentencePiece Unigram	1024	4.4	5.3	11.04	11.05	5.76	1.9	4.01

b) 在有標點和大寫的數據上使用Transducer解碼器

版本	分詞器	詞彙表大小	MCV12 DEV	MCV12 TEST	RULS DEV	RULS TEST
1.18.0	SentencePiece Unigram	1024	6.14	7.3	26.78	30.81

侷限性

由於該模型在公開可用的語音數據集上進行訓練，對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。對於帶有口音的語音，模型的性能也可能較差。該模型僅輸出標點符號 '.', ',', '?' ，因此在需要其他標點符號的場景中可能表現不佳。

NVIDIA Riva部署

NVIDIA Riva 是一個加速的語音AI SDK，可部署在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上。此外，Riva還提供：

針對最常見語言的世界級開箱即用準確性，其模型檢查點在專有數據上進行了數十萬小時的GPU計算訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製的一流準確性。
流式語音識別、Kubernetes兼容擴展和企業級支持。

雖然該模型目前尚未得到Riva的支持，但支持的模型列表在此。查看 Riva即時演示。

引用

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

📄 許可證

使用此模型的許可受 CC - BY - 4.0 許可協議的約束。通過下載該模型的公開和發佈版本，即表示你接受 CC - BY - 4.0 許可協議的條款和條件。

信息表格

屬性	詳情
模型類型	用於俄語自動語音識別的FastConformer-Hybrid模型
訓練數據	Golos (1200小時)、Sova (310小時)、Dusha (200小時)、RULS (92.5小時)、MCV12 (36.7小時)
許可證	CC - BY - 4.0