🚀 QuartzNet 15x5 CTC Bambara
stt-bm-quartznet15x5-V0
是 NVIDIA 的 stt_fr_quartznet15x5
模型的微調版本,針對班巴拉語自動語音識別進行了優化。該模型採用字符編碼方案,在標準字符集下轉錄文本。
|
| 
🚀 快速開始
安裝依賴
要微調或使用該模型,需安裝 NVIDIA NeMo。建議在設置好最新的 PyTorch 版本後進行安裝。
pip install nemo_toolkit['asr']
加載模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
轉錄音頻
asr_model.transcribe(['sample_audio.wav'])
✨ 主要特性
- 基於 NVIDIA 的
stt_fr_quartznet15x5
模型進行微調,專為班巴拉語自動語音識別優化。
- 採用字符編碼方案,在標準字符集下轉錄文本。
- 利用 CTC(Connectionist Temporal Classification)損失進行訓練。
📦 安裝指南
要微調或使用該模型,需安裝 NVIDIA NeMo。建議在設置好最新的 PyTorch 版本後進行安裝。
pip install nemo_toolkit['asr']
💻 使用示例
基礎用法
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="RobotsMali/stt-bm-quartznet15x5")
asr_model.transcribe(['sample_audio.wav'])
📚 詳細文檔
輸入
該模型接受 16 kHz 單聲道音頻(wav 文件)作為輸入。
輸出
該模型為給定的語音樣本提供轉錄後的字符串文本。
模型架構
QuartzNet 是一種卷積架構,由針對語音識別優化的 1D 時間通道可分離卷積組成。有關 QuartzNet 的更多信息,請參閱:QuartzNet Model。
訓練
使用 NeMo 工具包在 stt_fr_quartznet15x5
模型上對該模型進行了 25939 步的微調。該模型使用此 基礎配置 進行訓練。完整的訓練配置、腳本和實驗日誌可在此處獲取:
🔗 Bambara-ASR Experiments
數據集
該模型在 bam-asr-early 數據集上進行了微調,該數據集包含 37 小時的轉錄班巴拉語語音數據。該數據集主要來自 Jeli-ASR 數據集(約 87%)。
性能
自動語音識別模型的性能使用 單詞錯誤率(WER%) 來衡量。
版本 |
分詞器 |
詞彙量大小 |
bam-asr-all(測試集) |
V2 |
按字符 |
45 |
46.5 |
這些是 沒有外部語言模型的貪心 WER 數值。
🔧 技術細節
QuartzNet 是一種卷積架構,由針對語音識別優化的 1D 時間通道可分離卷積組成。該模型使用 CTC(Connectionist Temporal Classification)損失進行訓練,在 stt_fr_quartznet15x5
模型基礎上進行了 25939 步的微調。更多信息可參考:QuartzNet Model。
📄 許可證
該模型根據 CC-BY-4.0 許可證發佈。使用該模型即表示您同意遵守許可證的條款。
⚠️ 重要提示
此模型及其相關資源是一項 正在進行的研究工作 的一部分,預計未來版本會有改進和優化。用戶應注意:
- 該模型可能無法在所有說話條件和方言下都有很好的泛化能力。
- 歡迎社區反饋,並鼓勵貢獻以進一步優化該模型。
更多詳細信息可在 實驗技術報告 中查看:
📄 Draft Technical Report - Weights & Biases。
如果您有任何建議或貢獻,歡迎在 Hugging Face 上展開討論,或在 GitHub 上 提交問題。