stt_rw_conformer_transducer_large開源模型 - 免費部署盧旺達語語音轉文字功能

首頁

Stt Rw Conformer Transducer Large

由nvidia開發

這是一個用於盧旺達語語音識別的Conformer-Transducer大型模型，能將語音轉錄為小寫拉丁字母，支持空格和撇號。

語音識別其他#盧旺達語語音識別 #非自迴歸大模型 #Conformer架構

下載量 116

發布時間 : 7/31/2022

模型概述

本模型用於將語音轉錄為包含空格和撇號的小寫拉丁字母，在約2000小時的盧旺達語語音數據上進行訓練。

模型特點

高準確度轉錄

可將語音準確轉錄為小寫拉丁字母，支持空格和撇號。

大型模型架構

基於Conformer的非自迴歸'大型'變體，參數約1.2億，性能強大。

易用性

可在NeMo工具包中使用，方便進行推理和微調。

模型能力

語音識別

語音轉錄

支持盧旺達語

使用案例

語音轉錄

音頻文件轉錄

將盧旺達語語音文件轉錄為文本

準確率較高，測試集WER為16.19%

🚀 NVIDIA Conformer-Transducer Large (Kinyarwanda)

本模型用於將語音轉錄為包含空格和撇號的小寫拉丁字母，它在約2000小時的盧旺達語語音數據上進行訓練。這是Conformer的非自迴歸“大型”變體，約有1.2億個參數。如需瞭解完整的架構細節，請參閱模型架構部分和NeMo文檔。

| | |

🚀 快速開始

本模型可在NeMo工具包[3]中使用，可作為預訓練檢查點用於推理或在其他數據集上進行微調。

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

✨ 主要特性

可將語音準確轉錄為小寫拉丁字母，支持空格和撇號。
基於Conformer的非自迴歸“大型”變體，參數約1.2億，性能強大。
可在NeMo工具包中使用，方便進行推理和微調。

📦 安裝指南

若要訓練、微調或使用該模型，你需要安裝NVIDIA NeMo。建議在安裝最新版本的PyTorch之後再安裝它。

pip install nemo_toolkit['all']

💻 使用示例

基礎用法

自動實例化模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_rw_conformer_transducer_large")

高級用法

轉錄單個音頻文件

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

轉錄多個音頻文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_rw_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 詳細文檔

模型架構

Conformer-Transducer模型是用於自動語音識別的Conformer模型[1]的自迴歸變體，它使用Transducer損失/解碼。你可以在Conformer-Transducer模型中找到有關該模型詳細信息。

訓練

NeMo工具包[3]用於對模型進行數百個週期的訓練。這些模型使用示例腳本和基礎配置進行訓練。

我們使用的詞彙表包含28個字符：

[' ', "'", 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']

在預處理過程中，帶有變音符號的稀有符號被替換。

這些模型的分詞器是使用訓練集的文本轉錄，通過腳本構建的。對於大小為1024的詞彙表，我們將最大子詞長度限制為4個符號，以避免詞彙表中充斥著數據集中特定的常用詞。這不會影響模型性能，並且有可能在不重新訓練分詞器的情況下適應其他領域。

完整配置可以在.nemo文件中找到。

數據集

本集合中的所有模型均在MCV - 9.0盧旺達語數據集上進行訓練，該數據集包含約2000小時的訓練語音音頻、32小時的開發語音音頻和32小時的測試語音音頻。

性能

本集合中可用模型的列表如下表所示。自動語音識別（ASR）模型的性能以貪心解碼的詞錯誤率（WER%）報告。

版本	分詞器	詞彙表大小	開發集WER	測試集WER	訓練數據集
1.11.0	SentencePiece BPE, maxlen = 4	1024	13.82	16.19	MCV - 9.0訓練集

侷限性

由於該模型是在公開可用的語音數據集上訓練的，對於包含技術術語或模型未訓練過的方言的語音，其性能可能會下降。對於帶有口音的語音，模型的表現可能也會更差。

使用NVIDIA Riva進行部署

NVIDIA Riva是一個加速語音AI SDK，可在本地、所有云、多雲、混合雲、邊緣和嵌入式設備上部署。此外，Riva還提供：

針對最常見語言的一流開箱即用準確性，其模型檢查點在專有數據上進行了數十萬小時的GPU計算訓練。
具有運行時單詞增強（例如品牌和產品名稱）以及聲學模型、語言模型和逆文本規範化定製的一流準確性。
流式語音識別、Kubernetes兼容擴展和企業級支持。

雖然Riva目前尚不支持此模型，但支持的模型列表在此。查看Riva即時演示。

📄 許可證

本模型使用的許可證為CC - BY - 4.0。

🔗 參考資料

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫