🚀 wav2vec2-bloom-speech-tgl
本項目是一個基於語音識別的模型,在特定數據集上對預訓練模型進行微調,實現了較好的語音識別效果,同時對模型的使用、訓練等方面都有明確的說明和限制。
🚀 快速開始
本模型是 facebook/wav2vec2-xls-r-300m 在 SIL-AI/bloom-speech - TGL(他加祿語)數據集上的微調版本。用戶可參考原始模型獲取使用訓練好的模型進行推理的教程。
✨ 主要特性
- 多語言支持:支持他加祿語(TGL)的語音識別。
- 良好性能:在評估集上取得了較好的損失、字錯誤率(Wer)和字符錯誤率(Cer)結果。
📚 詳細文檔
模型描述
該模型在評估集上取得了以下結果:
- 損失:0.9606
- 字錯誤率(Wer):0.2457
- 字符錯誤率(Cer):0.0769
預期用途和限制
本模型的用戶必須遵守 SIL RAIL - M 許可證。此模型作為概念驗證而創建,不保證在特定情況下的性能。
訓練和評估數據
訓練、驗證和測試數據集均從同一語料庫生成,確保不使用重複文件。
訓練過程
基於 Hugging Face Transformers Github 中的示例,使用標準的 XLS - R 微調方法。
訓練超參數
訓練期間使用了以下超參數:
- 學習率:0.0003
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:250
- 訓練輪數:1000.0
- 混合精度訓練:原生 AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
字錯誤率(Wer) |
字符錯誤率(Cer) |
無記錄 |
22.73 |
250 |
0.9218 |
0.5239 |
0.1605 |
2.044 |
45.45 |
500 |
0.7345 |
0.3717 |
0.0981 |
2.044 |
68.18 |
750 |
0.7742 |
0.35 |
0.0957 |
0.0713 |
90.91 |
1000 |
0.8898 |
0.3196 |
0.0883 |
0.0713 |
113.64 |
1250 |
0.9236 |
0.3478 |
0.1044 |
0.0409 |
136.36 |
1500 |
0.8082 |
0.3174 |
0.0883 |
0.0409 |
159.09 |
1750 |
0.8353 |
0.2826 |
0.0824 |
0.0287 |
181.82 |
2000 |
0.7737 |
0.2783 |
0.0859 |
0.0287 |
204.55 |
2250 |
1.1609 |
0.2891 |
0.0871 |
0.0146 |
227.27 |
2500 |
0.9606 |
0.2457 |
0.0769 |
0.0146 |
250.0 |
2750 |
0.9115 |
0.2717 |
0.0777 |
0.015 |
272.73 |
3000 |
0.8434 |
0.3130 |
0.0859 |
0.015 |
295.45 |
3250 |
1.0805 |
0.3087 |
0.0961 |
框架版本
- Transformers 4.21.0.dev0
- Pytorch 1.9.0 + cu111
- Datasets 2.2.2
- Tokenizers 0.12.1
📄 許可證
本模型採用其他許可證。獲取此模型前,需進行額外操作。該模型為開放訪問,僅可用於非商業用途,SIL International AI & NLP RAIL - M 許可證進一步規定了權利和使用方式。
SIL RAIL - M 許可證規定:
- 不得使用該模型故意生成或分享非法或有害的輸出或內容。特別是,不得使用該模型傷害或歧視原住民。
- 對於非商業用途生成的輸出,SIL 不主張權利,用戶可自由使用並對其使用負責,且使用不得違反許可證規定。
- 可以非商業方式重新分發模型權重並使用該模型,包括作為服務使用。若如此,請包含與許可證相同的使用限制,並向所有用戶提供 SIL International AI & NLP RAIL - M 許可證副本(請完整、仔細閱讀許可證)。請在此處閱讀完整許可證:https://huggingface.co/spaces/sil-ai/model-license
點擊下方“訪問倉庫”,即表示同意您的 聯繫信息(電子郵件地址和用戶名)可與模型作者共享。
若想諮詢該模型的商業用途,請 發郵件給我們。
信息表格
屬性 |
詳情 |
模型類型 |
基於 wav2vec2 的語音識別模型 |
訓練數據 |
SIL - AI/bloom - speech - TGL 數據集 |
許可證 |
SIL International AI & NLP RAIL - M 許可證 |