🚀 XLS - R - 300M - 豪薩語
本模型是在通用語音數據集上對 [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) 進行微調後的版本。它在評估集上取得了以下成績:
- 損失值:0.6094
- 詞錯誤率(Wer):0.5234
🚀 快速開始
本模型在評估集上有較好的表現,以下是一些使用相關的信息。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
基礎用法
以下是使用語言模型進行推理的示例代碼:
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-ha-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "ha", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
高級用法
評估命令
在 mozilla - foundation/common_voice_8_0
數據集的 test
分割上進行評估:
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-ha-cv8 --dataset mozilla-foundation/common_voice_8_0 --config ha --split test
📚 詳細文檔
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0001
- 訓練批次大小:16
- 評估批次大小:8
- 隨機種子:13
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:帶重啟的餘弦退火
- 學習率調度器熱身步數:1000
- 訓練輪數:100
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
2.9599 |
6.56 |
400 |
2.8650 |
1.0 |
2.7357 |
13.11 |
800 |
2.7377 |
0.9951 |
1.3012 |
19.67 |
1200 |
0.6686 |
0.7111 |
1.0454 |
26.23 |
1600 |
0.5686 |
0.6137 |
0.9069 |
32.79 |
2000 |
0.5576 |
0.5815 |
0.82 |
39.34 |
2400 |
0.5502 |
0.5591 |
0.7413 |
45.9 |
2800 |
0.5970 |
0.5586 |
0.6872 |
52.46 |
3200 |
0.5817 |
0.5428 |
0.634 |
59.02 |
3600 |
0.5636 |
0.5314 |
0.6022 |
65.57 |
4000 |
0.5780 |
0.5229 |
0.5705 |
72.13 |
4400 |
0.6036 |
0.5323 |
0.5408 |
78.69 |
4800 |
0.6119 |
0.5336 |
0.5225 |
85.25 |
5200 |
0.6105 |
0.5270 |
0.5265 |
91.8 |
5600 |
0.6034 |
0.5231 |
0.5154 |
98.36 |
6000 |
0.6094 |
0.5234 |
框架版本
- Transformers 4.16.1
- Pytorch 1.10.0 + cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
評估結果
在通用語音 8 “測試” 集上的評估結果(詞錯誤率 WER):
不使用語言模型 |
使用語言模型(運行 ./eval.py ) |
47.821 |
36.295 |
🔧 技術細節
文檔未提供足夠的技術實現細節,暫不展示。
📄 許可證
本項目採用 Apache - 2.0 許可證。