stt-bm-quartznet15x5-V0開源班巴拉語語音識別模型

首頁

Stt Bm Quartznet15x5 V0

由RobotsMali開發

這是一個基於NVIDIA NeMo框架微調的班巴拉語自動語音識別模型，適用於處理班巴拉語語音轉文本任務。

語音識別

PyTorch

其他#班巴拉語語音識別 #低資源語言優化 #CTC損失訓練

下載量 88

發布時間 : 2/7/2025

模型概述

該模型是NVIDIA stt_fr_quartznet15x5的微調版本，專為班巴拉語自動語音識別優化，採用CTC損失函數進行訓練。

模型特點

班巴拉語優化

專門針對班巴拉語語音識別進行微調優化

輕量級架構

採用參數僅19M的QuartzNet 15x5架構，適合資源有限的環境

持續改進

屬於持續研究項目，未來版本會有進一步優化

模型能力

班巴拉語語音識別

16kHz單聲道音頻處理

使用案例

語音轉文本

班巴拉語語音轉錄

將班巴拉語語音轉換為文本

在測試集上達到46.5%的WER

🚀 QuartzNet 15x5 CTC Bambara

stt-bm-quartznet15x5-V0 是 NVIDIA 的 stt_fr_quartznet15x5 模型的微調版本，針對班巴拉語自動語音識別進行了優化。該模型採用字符編碼方案，在標準字符集下轉錄文本。

| |

🚀 快速開始

安裝依賴

要微調或使用該模型，需安裝 NVIDIA NeMo。建議在設置好最新的 PyTorch 版本後進行安裝。

pip install nemo_toolkit['asr']

加載模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")

轉錄音頻

# 假設你有一個名為 sample_audio.wav 的測試音頻文件
asr_model.transcribe(['sample_audio.wav'])

✨ 主要特性

基於 NVIDIA 的 stt_fr_quartznet15x5 模型進行微調，專為班巴拉語自動語音識別優化。
採用字符編碼方案，在標準字符集下轉錄文本。
利用 CTC（Connectionist Temporal Classification）損失進行訓練。

📦 安裝指南

要微調或使用該模型，需安裝 NVIDIA NeMo。建議在設置好最新的 PyTorch 版本後進行安裝。

pip install nemo_toolkit['asr']

💻 使用示例

基礎用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
# 假設你有一個名為 sample_audio.wav 的測試音頻文件
asr_model.transcribe(['sample_audio.wav'])

📚 詳細文檔

輸入

該模型接受 16 kHz 單聲道音頻（wav 文件）作為輸入。

輸出

該模型為給定的語音樣本提供轉錄後的字符串文本。

模型架構

QuartzNet 是一種卷積架構，由針對語音識別優化的 1D 時間通道可分離卷積組成。有關 QuartzNet 的更多信息，請參閱：QuartzNet Model。

訓練

使用 NeMo 工具包在 stt_fr_quartznet15x5 模型上對該模型進行了 25939 步的微調。該模型使用此基礎配置進行訓練。完整的訓練配置、腳本和實驗日誌可在此處獲取： 🔗 Bambara-ASR Experiments

數據集

該模型在 bam-asr-early 數據集上進行了微調，該數據集包含 37 小時的轉錄班巴拉語語音數據。該數據集主要來自 Jeli-ASR 數據集（約 87%）。

性能

自動語音識別模型的性能使用 單詞錯誤率（WER%） 來衡量。

版本	分詞器	詞彙量大小	bam-asr-all（測試集）
V2	按字符	45	46.5

這些是 沒有外部語言模型的貪心 WER 數值。

🔧 技術細節

QuartzNet 是一種卷積架構，由針對語音識別優化的 1D 時間通道可分離卷積組成。該模型使用 CTC（Connectionist Temporal Classification）損失進行訓練，在 stt_fr_quartznet15x5 模型基礎上進行了 25939 步的微調。更多信息可參考：QuartzNet Model。