🚀 QuartzNet 15x5 CTC Bambara
stt-bm-quartznet15x5-V0
是 NVIDIA 的 stt_fr_quartznet15x5
模型的微调版本,针对班巴拉语自动语音识别进行了优化。该模型采用字符编码方案,在标准字符集下转录文本。
|
| 
🚀 快速开始
安装依赖
要微调或使用该模型,需安装 NVIDIA NeMo。建议在设置好最新的 PyTorch 版本后进行安装。
pip install nemo_toolkit['asr']
加载模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
转录音频
asr_model.transcribe(['sample_audio.wav'])
✨ 主要特性
- 基于 NVIDIA 的
stt_fr_quartznet15x5
模型进行微调,专为班巴拉语自动语音识别优化。
- 采用字符编码方案,在标准字符集下转录文本。
- 利用 CTC(Connectionist Temporal Classification)损失进行训练。
📦 安装指南
要微调或使用该模型,需安装 NVIDIA NeMo。建议在设置好最新的 PyTorch 版本后进行安装。
pip install nemo_toolkit['asr']
💻 使用示例
基础用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
asr_model.transcribe(['sample_audio.wav'])
📚 详细文档
输入
该模型接受 16 kHz 单声道音频(wav 文件)作为输入。
输出
该模型为给定的语音样本提供转录后的字符串文本。
模型架构
QuartzNet 是一种卷积架构,由针对语音识别优化的 1D 时间通道可分离卷积组成。有关 QuartzNet 的更多信息,请参阅:QuartzNet Model。
训练
使用 NeMo 工具包在 stt_fr_quartznet15x5
模型上对该模型进行了 25939 步的微调。该模型使用此 基础配置 进行训练。完整的训练配置、脚本和实验日志可在此处获取:
🔗 Bambara-ASR Experiments
数据集
该模型在 bam-asr-early 数据集上进行了微调,该数据集包含 37 小时的转录班巴拉语语音数据。该数据集主要来自 Jeli-ASR 数据集(约 87%)。
性能
自动语音识别模型的性能使用 单词错误率(WER%) 来衡量。
版本 |
分词器 |
词汇量大小 |
bam-asr-all(测试集) |
V2 |
按字符 |
45 |
46.5 |
这些是 没有外部语言模型的贪心 WER 数值。
🔧 技术细节
QuartzNet 是一种卷积架构,由针对语音识别优化的 1D 时间通道可分离卷积组成。该模型使用 CTC(Connectionist Temporal Classification)损失进行训练,在 stt_fr_quartznet15x5
模型基础上进行了 25939 步的微调。更多信息可参考:QuartzNet Model。
📄 许可证
该模型根据 CC-BY-4.0 许可证发布。使用该模型即表示您同意遵守许可证的条款。
⚠️ 重要提示
此模型及其相关资源是一项 正在进行的研究工作 的一部分,预计未来版本会有改进和优化。用户应注意:
- 该模型可能无法在所有说话条件和方言下都有很好的泛化能力。
- 欢迎社区反馈,并鼓励贡献以进一步优化该模型。
更多详细信息可在 实验技术报告 中查看:
📄 Draft Technical Report - Weights & Biases。
如果您有任何建议或贡献,欢迎在 Hugging Face 上展开讨论,或在 GitHub 上 提交问题。