🚀 XLS - R - 300M - 乌尔都语模型
本模型是一个用于自动语音识别的模型,基于预训练模型微调而来,在乌尔都语语音识别任务上有着特定的评估结果,可应用于相关语音识别场景。
🚀 快速开始
该模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 数据集上的微调版本。它在评估集上取得了以下结果:
评估命令
- 在
mozilla - foundation/common_voice_7_0
数据集的 test
分割上进行评估:
python eval.py \
--model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
--config ur --split validation --chunk_length_s 10 --stride_length_s 1
推理示例
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
通用语音 7 “测试” 集上的评估结果(字错率)
文档未明确给出具体评估结果数值。
✨ 主要特性
- 微调模型:基于
facebook/wav2vec2 - xls - r - 300m
模型在乌尔都语数据集上进行微调。
- 多框架支持:与 Transformers、Pytorch、Datasets、Tokenizers 等框架兼容。
📦 安装指南
文档未提供具体安装步骤。
📚 详细文档
模型描述
更多信息待补充。
预期用途和限制
更多信息待补充。
训练和评估数据
更多信息待补充。
🔧 技术细节
训练超参数
训练期间使用了以下超参数:
- 学习率:7.5e - 05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:2000
- 训练轮数:50.0
- 混合精度训练:Native AMP
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 许可证
本模型使用 Apache - 2.0 许可证。
📋 模型信息表格
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 数据集 |
模型名称 |
XLS - R - 300M - 乌尔都语 |
评估指标(测试集字错率) |
105.66 |
评估指标(测试集字符错误率) |
434.011 |