S

Stt Bm Quartznet15x5 V0

由RobotsMali開發
這是一個基於NVIDIA NeMo框架微調的班巴拉語自動語音識別模型,適用於處理班巴拉語語音轉文本任務。
下載量 88
發布時間 : 2/7/2025

模型概述

該模型是NVIDIA stt_fr_quartznet15x5的微調版本,專為班巴拉語自動語音識別優化,採用CTC損失函數進行訓練。

模型特點

班巴拉語優化
專門針對班巴拉語語音識別進行微調優化
輕量級架構
採用參數僅19M的QuartzNet 15x5架構,適合資源有限的環境
持續改進
屬於持續研究項目,未來版本會有進一步優化

模型能力

班巴拉語語音識別
16kHz單聲道音頻處理

使用案例

語音轉文本
班巴拉語語音轉錄
將班巴拉語語音轉換為文本
在測試集上達到46.5%的WER
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase