🚀 XLS-R-300M - 保加利亞語
本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 數據集上的微調版本。它在評估集上取得了以下成果:
- 損失:0.2473
- 詞錯誤率(Wer):0.3002
🚀 快速開始
本模型是基於預訓練模型在特定數據集上微調得到,可用於保加利亞語的自動語音識別任務。以下是評估和推理的相關信息。
✨ 主要特性
📦 安裝指南
文檔未提及具體安裝步驟,可參考原預訓練模型 facebook/wav2vec2-xls-r-300m 的安裝說明。
💻 使用示例
基礎用法
評估命令
- 在
mozilla-foundation/common_voice_8_0
數據集的 test
分割上進行評估:
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test
- 在
speech-recognition-community-v2/dev_data
數據集上進行評估:
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0
高級用法
帶語言模型的推理
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
XLS-R-300M - 保加利亞語 |
訓練數據 |
MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 數據集 |
評估結果
本模型在以下任務和數據集上的評估結果如下:
任務 |
數據集 |
測試詞錯誤率 (WER) |
測試字符錯誤率 (CER) |
自動語音識別 |
Common Voice 8 |
21.195 |
4.786 |
自動語音識別 |
Robust Speech Event - Dev Data |
32.667 |
12.452 |
自動語音識別 |
Robust Speech Event - Test Data |
31.03 |
未提及 |
評估集結果
無語言模型 |
帶語言模型 (運行 ./eval.py ) |
30.07 |
21.195 |
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:7.5e-05
- 訓練批次大小:32
- 評估批次大小:16
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:1000
- 訓練輪數:50.0
- 混合精度訓練:原生自動混合精度 (Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率 (Wer) |
3.1589 |
3.48 |
400 |
3.0830 |
1.0 |
2.8921 |
6.96 |
800 |
2.6605 |
0.9982 |
1.3049 |
10.43 |
1200 |
0.5069 |
0.5707 |
1.1349 |
13.91 |
1600 |
0.4159 |
0.5041 |
1.0686 |
17.39 |
2000 |
0.3815 |
0.4746 |
0.999 |
20.87 |
2400 |
0.3541 |
0.4343 |
0.945 |
24.35 |
2800 |
0.3266 |
0.4132 |
0.9058 |
27.83 |
3200 |
0.2969 |
0.3771 |
0.8672 |
31.3 |
3600 |
0.2802 |
0.3553 |
0.8313 |
34.78 |
4000 |
0.2662 |
0.3380 |
0.8068 |
38.26 |
4400 |
0.2528 |
0.3181 |
0.7796 |
41.74 |
4800 |
0.2537 |
0.3073 |
0.7621 |
45.22 |
5200 |
0.2503 |
0.3036 |
0.7611 |
48.7 |
5600 |
0.2477 |
0.2991 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2+cu102
- Datasets:1.18.2.dev0
- Tokenizers:0.11.0
📄 許可證
本模型使用 Apache-2.0 許可證。