🚀 XLS-R-300M - 保加利亚语
本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 数据集上的微调版本。它在评估集上取得了以下成果:
- 损失:0.2473
- 词错误率(Wer):0.3002
🚀 快速开始
本模型是基于预训练模型在特定数据集上微调得到,可用于保加利亚语的自动语音识别任务。以下是评估和推理的相关信息。
✨ 主要特性
📦 安装指南
文档未提及具体安装步骤,可参考原预训练模型 facebook/wav2vec2-xls-r-300m 的安装说明。
💻 使用示例
基础用法
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集的 test
分割上进行评估:
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test
- 在
speech-recognition-community-v2/dev_data
数据集上进行评估:
python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0
高级用法
带语言模型的推理
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
XLS-R-300M - 保加利亚语 |
训练数据 |
MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 数据集 |
评估结果
本模型在以下任务和数据集上的评估结果如下:
任务 |
数据集 |
测试词错误率 (WER) |
测试字符错误率 (CER) |
自动语音识别 |
Common Voice 8 |
21.195 |
4.786 |
自动语音识别 |
Robust Speech Event - Dev Data |
32.667 |
12.452 |
自动语音识别 |
Robust Speech Event - Test Data |
31.03 |
未提及 |
评估集结果
无语言模型 |
带语言模型 (运行 ./eval.py ) |
30.07 |
21.195 |
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率:7.5e-05
- 训练批次大小:32
- 评估批次大小:16
- 随机种子:42
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e-08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:1000
- 训练轮数:50.0
- 混合精度训练:原生自动混合精度 (Native AMP)
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率 (Wer) |
3.1589 |
3.48 |
400 |
3.0830 |
1.0 |
2.8921 |
6.96 |
800 |
2.6605 |
0.9982 |
1.3049 |
10.43 |
1200 |
0.5069 |
0.5707 |
1.1349 |
13.91 |
1600 |
0.4159 |
0.5041 |
1.0686 |
17.39 |
2000 |
0.3815 |
0.4746 |
0.999 |
20.87 |
2400 |
0.3541 |
0.4343 |
0.945 |
24.35 |
2800 |
0.3266 |
0.4132 |
0.9058 |
27.83 |
3200 |
0.2969 |
0.3771 |
0.8672 |
31.3 |
3600 |
0.2802 |
0.3553 |
0.8313 |
34.78 |
4000 |
0.2662 |
0.3380 |
0.8068 |
38.26 |
4400 |
0.2528 |
0.3181 |
0.7796 |
41.74 |
4800 |
0.2537 |
0.3073 |
0.7621 |
45.22 |
5200 |
0.2503 |
0.3036 |
0.7611 |
48.7 |
5600 |
0.2477 |
0.2991 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2+cu102
- Datasets:1.18.2.dev0
- Tokenizers:0.11.0
📄 许可证
本模型使用 Apache-2.0 许可证。