🚀 wav2vec2-xls-r-300m-cv7-turkish
本自動語音識別(ASR)模型是 facebook/wav2vec2-xls-r-300m 在土耳其語上的微調版本,可用於土耳其語的語音識別任務。
🚀 快速開始
若要評估該模型,請先安裝 unicode_tr 包,它用於土耳其語文本處理。以下是不同數據集的評估命令:
- 在
mozilla-foundation/common_voice_7_0
數據集的 test
分割上進行評估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
- 在
speech-recognition-community-v2/dev_data
數據集上進行評估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
✨ 主要特性
- 基於
facebook/wav2vec2-xls-r-300m
進行微調,適配土耳其語語音識別。
- 支持多數據集訓練和評估,包括
Common Voice 7.0 TR
和 MediaSpeech
。
- 訓練過程中使用了自定義的預處理和加載步驟。
- 訓練了 N - gram 語言模型以提升識別效果。
📦 安裝指南
在運行評估之前,需要安裝 unicode_tr
包:
pip install unicode_tr
💻 使用示例
評估示例
以下是在不同數據集上進行評估的命令示例:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📚 詳細文檔
模型描述
本 ASR 模型是 facebook/wav2vec2-xls-r-300m 在土耳其語上的微調版本。
訓練和評估數據
以下數據集用於微調:
訓練過程
為支持上述兩個數據集,執行了自定義的預處理和加載步驟,並使用 wav2vec2-turkish 倉庫完成此目的。
訓練超參數
以下超參數用於微調:
- 學習率:2e - 4
- 訓練輪數:10
- 熱身步數:500
- 凍結特徵提取器
- 時間掩碼概率:0.1
- 特徵掩碼概率:0.05
- 特徵投影丟棄率:0.05
- 注意力丟棄率:0.05
- 最終丟棄率:0.05
- 激活丟棄率:0.05
- 每個設備的訓練批次大小:8
- 每個設備的評估批次大小:8
- 梯度累積步數:8
框架版本
- Transformers:4.16.0.dev0
- Pytorch:1.10.1
- Datasets:1.17.0
- Tokenizers:0.10.3
語言模型
使用 KenLM 在土耳其語維基百科文章上訓練了 N - gram 語言模型,並使用 ngram-lm-wiki 倉庫生成 arpa LM 並將其轉換為二進制格式。
評估命令
請在運行評估前安裝 unicode_tr 包,它用於土耳其語文本處理。
- 在
mozilla-foundation/common_voice_7_0
數據集的 test
分割上評估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
- 在
speech-recognition-community-v2/dev_data
數據集上評估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
評估結果
數據集 |
詞錯誤率(WER) |
字符錯誤率(CER) |
Common Voice 7 TR test split |
8.62 |
2.26 |
Speech Recognition Community dev data |
30.87 |
10.69 |
🔧 技術細節
- 模型基於
facebook/wav2vec2-xls-r-300m
進行微調,通過自定義的預處理和加載步驟適配多數據集。
- 訓練過程中使用了多種超參數來優化模型性能,如學習率、訓練輪數等。
- 訓練了 N - gram 語言模型,使用 KenLM 在土耳其語維基百科文章上進行訓練,並將其轉換為二進制格式。
📄 許可證
本項目採用 CC - BY - 4.0 許可證。