🚀 XLS - R - 300M - 烏爾都語模型
本模型是一個用於自動語音識別的模型,基於預訓練模型微調而來,在烏爾都語語音識別任務上有著特定的評估結果,可應用於相關語音識別場景。
🚀 快速開始
該模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 數據集上的微調版本。它在評估集上取得了以下結果:
評估命令
- 在
mozilla - foundation/common_voice_7_0
數據集的 test
分割上進行評估:
python eval.py \
--model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
--config ur --split validation --chunk_length_s 10 --stride_length_s 1
推理示例
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
通用語音 7 “測試” 集上的評估結果(字錯率)
文檔未明確給出具體評估結果數值。
✨ 主要特性
- 微調模型:基於
facebook/wav2vec2 - xls - r - 300m
模型在烏爾都語數據集上進行微調。
- 多框架支持:與 Transformers、Pytorch、Datasets、Tokenizers 等框架兼容。
📦 安裝指南
文檔未提供具體安裝步驟。
📚 詳細文檔
模型描述
更多信息待補充。
預期用途和限制
更多信息待補充。
訓練和評估數據
更多信息待補充。
🔧 技術細節
訓練超參數
訓練期間使用了以下超參數:
- 學習率:7.5e - 05
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:4
- 總訓練批次大小:32
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器熱身步數:2000
- 訓練輪數:50.0
- 混合精度訓練:Native AMP
框架版本
- Transformers 4.16.0.dev0
- Pytorch 1.10.0 + cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3
📄 許可證
本模型使用 Apache - 2.0 許可證。
📋 模型信息表格
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 數據集 |
模型名稱 |
XLS - R - 300M - 烏爾都語 |
評估指標(測試集字錯率) |
105.66 |
評估指標(測試集字符錯誤率) |
434.011 |