stt-bm-quartznet15x5-V0开源班巴拉语语音识别模型

首页

Stt Bm Quartznet15x5 V0

由 RobotsMali 开发

这是一个基于NVIDIA NeMo框架微调的班巴拉语自动语音识别模型，适用于处理班巴拉语语音转文本任务。

语音识别

PyTorch

其他#班巴拉语语音识别 #低资源语言优化 #CTC损失训练

下载量 88

发布时间 : 2/7/2025

模型简介

该模型是NVIDIA stt_fr_quartznet15x5的微调版本，专为班巴拉语自动语音识别优化，采用CTC损失函数进行训练。

模型特点

班巴拉语优化

专门针对班巴拉语语音识别进行微调优化

轻量级架构

采用参数仅19M的QuartzNet 15x5架构，适合资源有限的环境

持续改进

属于持续研究项目，未来版本会有进一步优化

模型能力

班巴拉语语音识别

16kHz单声道音频处理

使用案例

语音转文本

班巴拉语语音转录

将班巴拉语语音转换为文本

在测试集上达到46.5%的WER

🚀 QuartzNet 15x5 CTC Bambara

stt-bm-quartznet15x5-V0 是 NVIDIA 的 stt_fr_quartznet15x5 模型的微调版本，针对班巴拉语自动语音识别进行了优化。该模型采用字符编码方案，在标准字符集下转录文本。

| |

🚀 快速开始

安装依赖

要微调或使用该模型，需安装 NVIDIA NeMo。建议在设置好最新的 PyTorch 版本后进行安装。

pip install nemo_toolkit['asr']

加载模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")

转录音频

# 假设你有一个名为 sample_audio.wav 的测试音频文件
asr_model.transcribe(['sample_audio.wav'])

✨ 主要特性

基于 NVIDIA 的 stt_fr_quartznet15x5 模型进行微调，专为班巴拉语自动语音识别优化。
采用字符编码方案，在标准字符集下转录文本。
利用 CTC（Connectionist Temporal Classification）损失进行训练。

📦 安装指南

要微调或使用该模型，需安装 NVIDIA NeMo。建议在设置好最新的 PyTorch 版本后进行安装。

pip install nemo_toolkit['asr']

💻 使用示例

基础用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
# 假设你有一个名为 sample_audio.wav 的测试音频文件
asr_model.transcribe(['sample_audio.wav'])

📚 详细文档

输入

该模型接受 16 kHz 单声道音频（wav 文件）作为输入。

输出

该模型为给定的语音样本提供转录后的字符串文本。

模型架构

QuartzNet 是一种卷积架构，由针对语音识别优化的 1D 时间通道可分离卷积组成。有关 QuartzNet 的更多信息，请参阅：QuartzNet Model。

训练

使用 NeMo 工具包在 stt_fr_quartznet15x5 模型上对该模型进行了 25939 步的微调。该模型使用此基础配置进行训练。完整的训练配置、脚本和实验日志可在此处获取： 🔗 Bambara-ASR Experiments

数据集

该模型在 bam-asr-early 数据集上进行了微调，该数据集包含 37 小时的转录班巴拉语语音数据。该数据集主要来自 Jeli-ASR 数据集（约 87%）。

性能

自动语音识别模型的性能使用 单词错误率（WER%） 来衡量。

版本	分词器	词汇量大小	bam-asr-all（测试集）
V2	按字符	45	46.5

这些是 没有外部语言模型的贪心 WER 数值。

🔧 技术细节

QuartzNet 是一种卷积架构，由针对语音识别优化的 1D 时间通道可分离卷积组成。该模型使用 CTC（Connectionist Temporal Classification）损失进行训练，在 stt_fr_quartznet15x5 模型基础上进行了 25939 步的微调。更多信息可参考：QuartzNet Model。