S

Stt Bm Quartznet15x5 V0

由 RobotsMali 开发
这是一个基于NVIDIA NeMo框架微调的班巴拉语自动语音识别模型,适用于处理班巴拉语语音转文本任务。
下载量 88
发布时间 : 2/7/2025

模型简介

该模型是NVIDIA stt_fr_quartznet15x5的微调版本,专为班巴拉语自动语音识别优化,采用CTC损失函数进行训练。

模型特点

班巴拉语优化
专门针对班巴拉语语音识别进行微调优化
轻量级架构
采用参数仅19M的QuartzNet 15x5架构,适合资源有限的环境
持续改进
属于持续研究项目,未来版本会有进一步优化

模型能力

班巴拉语语音识别
16kHz单声道音频处理

使用案例

语音转文本
班巴拉语语音转录
将班巴拉语语音转换为文本
在测试集上达到46.5%的WER
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase