Stt Uz Fastconformer Hybrid Large Pc

S

Stt Uz Fastconformer Hybrid Large Pc

由nvidia開發

這是一個基於FastConformer架構的大型烏茲別克語語音識別模型，支持Transducer和CTC雙重解碼，在多個測試集上表現出色。

其他#烏茲別克語語音識別 #FastConformer架構 #混合損失訓練

下載量 96

發布時間 : 10/31/2024

模型概述

該模型用於烏茲別克語語音識別，能夠轉寫包含大小寫字母、空格和常見標點的文本，適用於通用語音識別場景。

模型特點

雙重解碼機制

同時支持Transducer和CTC兩種解碼方式，提供更靈活的推理選項

高效架構

採用優化的FastConformer架構，相比標準Conformer具有更高的計算效率

多數據集訓練

基於1000小時的烏茲別克語語音數據訓練，覆蓋多種語音場景

模型能力

烏茲別克語語音識別

音頻轉文本

批量語音處理

使用案例

語音轉寫

會議記錄

將烏茲別克語會議錄音自動轉寫為文字記錄

在通用場景下WER約16-17%

語音助手

為烏茲別克語語音助手提供語音識別能力

教育

語言學習

幫助烏茲別克語學習者檢查發音準確性

🚀 NVIDIA FastConformer-Hybrid Large (uz)

本模型可將烏茲別克語語音轉錄為包含大小寫字母、空格、逗號、問號和破折號的文本。它是FastConformer Transducer - CTC的“大型”版本（約1.15億個參數），這是一個基於兩種損失函數（Transducer（默認）和CTC）訓練的混合模型。欲瞭解完整的模型架構細節，請參閱模型架構部分和NeMo文檔。

| | |

🚀 快速開始

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

能夠處理烏茲別克語語音，輸出包含大小寫、空格、逗號、問號和破折號的文本。
採用FastConformer Transducer - CTC混合架構，約1.15億個參數。
基於兩種損失函數（Transducer和CTC）進行訓練。

📦 安裝指南

要訓練、微調或使用該模型，你需要安裝 NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_uz_fastconformer_hybrid_large_pc")

高級用法

單音頻文件轉錄

output = asr_model.transcribe(['audio_file.wav'])
print(output[0].text)

多音頻文件轉錄

使用Transducer模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

使用CTC模式推理：

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_uz_fastconformer_hybrid_large_pc" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

輸入

該模型接受16000 Hz單聲道音頻（wav文件）作為輸入。

輸出

該模型為給定的音頻樣本提供轉錄後的語音字符串。

📚 詳細文檔

模型架構

FastConformer [1] 是Conformer模型的優化版本，具有8倍深度可分離卷積下采樣。該模型在多任務設置中使用Transducer解碼器損失進行訓練。你可以在Fast - Conformer模型中找到有關FastConformer詳細信息。

訓練

使用NeMo工具包 [3] 對模型進行了數百個epoch的訓練。這些模型使用示例腳本和基礎配置進行訓練。

這些模型的分詞器是使用訓練集的文本轉錄，通過腳本構建的。

數據集

該模型在三個複合數據集上進行訓練，包含1000小時的烏茲別克語語音：

MCV 17.0烏茲別克語（約90小時）
UzbekVoice（約900小時）
Fleurs烏茲別克語（約10小時）

性能

自動語音識別模型的性能通過詞錯誤率（Word Error Rate）來衡量。由於該數據集在多個領域和更大的語料庫上進行訓練，因此在一般的音頻轉錄中通常表現更好。

以下表格總結了使用Transducer解碼器的模型性能。自動語音識別模型的性能以詞錯誤率（WER%）和貪心解碼的方式報告。

	WER(%)	無大寫WER	無標點WER	無標點和大寫WER
FLEURS開發集（用作測試）	17.52	16.20	12.20	10.73
MCV測試集	16.46	15.89	7.78	7.18

侷限性

該模型是非流式的，輸出的語音字符串沒有大小寫和標點。由於該模型是在公開可用的語音數據集上訓練的，對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。

NVIDIA Riva部署

NVIDIA Riva 是一個加速的語音AI SDK，可部署在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上。此外，Riva還提供：

針對最常見語言的世界級開箱即用準確性，其模型檢查點在專有數據上進行了數十萬GPU計算小時的訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本歸一化定製的一流準確性。
流式語音識別、Kubernetes兼容的擴展和企業級支持。

儘管該模型目前尚未得到Riva的支持，但支持的模型列表在此。查看 Riva即時演示。

🔧 技術細節

FastConformer是Conformer模型的優化版本，通過8倍深度可分離卷積下采樣提升性能。模型在多任務設置下使用Transducer解碼器損失訓練。訓練使用NeMo工具包，歷經數百個epoch，藉助特定示例腳本和基礎配置文件。分詞器基於訓練集文本轉錄構建。

📄 許可證

使用此模型的許可受 CC - BY - 4.0 許可證的約束。通過下載該模型的公開版本，即表示你接受 CC - BY - 4.0 許可證的條款和條件。

參考文獻

[1] Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition

[2] Google Sentencepiece Tokenizer

[3] NVIDIA NeMo Toolkit

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase