🚀 wav2vec2-large-xls-r-1b-瑞典语
该模型是在通用语音(Common Voice)数据集上对 facebook/wav2vec2-xls-r-1b 进行微调后的版本。它在自动语音识别任务中表现出色,能够将音频准确地转换为文本,为瑞典语语音处理提供了强大的支持。
✨ 主要特性
- 多领域适用:适用于自动语音识别、鲁棒语音事件处理等多个领域。
- 高精度表现:在通用语音数据集上经过微调,在瑞典语语音识别任务中取得了良好的评估结果。
📦 安装指南
文档中未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xls-r-1b-Swedish"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "sv-SE", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
高级用法
文档中未提及高级用法相关代码,故不展示。
📚 详细文档
评估指标
该模型在评估集上取得了以下结果:
无语言模型(Without LM)
- 损失(Loss): 0.3370
- 词错误率(Wer): 18.44
- 字符错误率(Cer): 5.75
有语言模型(With LM)
- 损失(Loss): 0.3370
- 词错误率(Wer): 14.04
- 字符错误率(Cer): 4.86
评估命令
- 在
mozilla-foundation/common_voice_8_0
数据集的 test
分割上进行评估:
python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset mozilla-foundation/common_voice_8_0 --config sv-SE --split test
- 在
speech-recognition-community-v2/dev_data
数据集上进行评估:
python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-1b-Swedish --dataset speech-recognition-community-v2/dev_data --config sv --split validation --chunk_length_s 5.0 --stride_length_s 1.0
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率(learning_rate) |
7.5e-05 |
训练批次大小(train_batch_size) |
64 |
评估批次大小(eval_batch_size) |
8 |
随机种子(seed) |
42 |
梯度累积步数(gradient_accumulation_steps) |
4 |
总训练批次大小(total_train_batch_size) |
256 |
优化器(optimizer) |
Adam(betas=(0.9,0.999),epsilon=1e-08) |
学习率调度器类型(lr_scheduler_type) |
线性(linear) |
学习率调度器热身步数(lr_scheduler_warmup_steps) |
1000 |
训练轮数(num_epochs) |
50 |
混合精度训练(mixed_precision_training) |
原生自动混合精度(Native AMP) |
训练结果
训练损失(Training Loss) |
轮数(Epoch) |
步数(Step) |
验证损失(Validation Loss) |
词错误率(Wer) |
字符错误率(Cer) |
3.1562 |
11.11 |
500 |
0.4830 |
0.3729 |
0.1169 |
0.5655 |
22.22 |
1000 |
0.3553 |
0.2381 |
0.0743 |
0.3376 |
33.33 |
1500 |
0.3359 |
0.2179 |
0.0696 |
0.2419 |
44.44 |
2000 |
0.3232 |
0.1844 |
0.0575 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
🔧 技术细节
该模型基于 facebook/wav2vec2-xls-r-1b
基础模型,在 mozilla-foundation/common_voice_8_0
数据集上进行微调。通过使用特定的训练超参数和优化器,在瑞典语语音识别任务中取得了较好的效果。评估指标包括词错误率(Wer)和字符错误率(Cer),用于衡量模型的性能。
📄 许可证
该模型使用 Apache-2.0 许可证。