wav2vec2-large-xls-r-300m-urdu開源語音識別模型 - 支持烏爾都語語音自動識別

首頁

Wav2vec2 Large Xls R 300m Urdu

由infinitejoy開發

這是一個基於facebook/wav2vec2-xls-r-300m在烏爾都語Common Voice 7數據集上微調的自動語音識別模型。

語音識別

Transformers

其他開源協議:Apache-2.0 #烏爾都語語音識別 #多方言支持 #低資源優化

下載量 15

發布時間 : 3/2/2022

模型概述

該模型主要用於烏爾都語的自動語音識別任務，能夠將烏爾都語語音轉換為文本。

模型特點

烏爾都語語音識別

專門針對烏爾都語優化的語音識別能力

基於XLS-R架構

使用Facebook的XLS-R-300M預訓練模型作為基礎

Common Voice數據集訓練

在Mozilla Common Voice 7烏爾都語數據集上微調

模型能力

烏爾都語語音轉文本

自動語音識別

使用案例

語音轉錄

烏爾都語語音轉錄

將烏爾都語語音內容轉換為文本

語音助手

烏爾都語語音交互

為烏爾都語語音助手提供識別能力

🚀 XLS - R - 300M - 烏爾都語模型

本模型是一個用於自動語音識別的模型，基於預訓練模型微調而來，在烏爾都語語音識別任務上有著特定的評估結果，可應用於相關語音識別場景。

🚀 快速開始

該模型是 facebook/wav2vec2 - xls - r - 300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 數據集上的微調版本。它在評估集上取得了以下結果：

損失：未提供
字錯率（Wer）：未提供

評估命令

在 mozilla - foundation/common_voice_7_0 數據集的 test 分割上進行評估：

python eval.py \
    --model_id infinitejoy/wav2vec2-large-xls-r-300m-urdu --dataset speech-recognition-community-v2/dev_data \
    --config ur --split validation --chunk_length_s 10 --stride_length_s 1

推理示例

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F


model_id = "infinitejoy/wav2vec2-large-xls-r-300m-urdu"

sample_iter = iter(load_dataset("mozilla-foundation/common_voice_7_0", "ur", split="test", streaming=True, use_auth_token=True))

sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

transcription = processor.batch_decode(logits.numpy()).text

通用語音 7 “測試” 集上的評估結果（字錯率）

文檔未明確給出具體評估結果數值。

✨ 主要特性

微調模型：基於 facebook/wav2vec2 - xls - r - 300m 模型在烏爾都語數據集上進行微調。
多框架支持：與 Transformers、Pytorch、Datasets、Tokenizers 等框架兼容。

📦 安裝指南

文檔未提供具體安裝步驟。

📚 詳細文檔

模型描述

更多信息待補充。

預期用途和限制

更多信息待補充。

訓練和評估數據

更多信息待補充。

🔧 技術細節

訓練超參數

訓練期間使用了以下超參數：

學習率：7.5e - 05
訓練批次大小：8
評估批次大小：8
隨機種子：42
梯度累積步數：4
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：2000
訓練輪數：50.0
混合精度訓練：Native AMP

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0 + cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

📄 許可證

本模型使用 Apache - 2.0 許可證。

📋 模型信息表格

屬性	詳情
模型類型	自動語音識別模型
訓練數據	MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - - UR 數據集
模型名稱	XLS - R - 300M - 烏爾都語
評估指標（測試集字錯率）	105.66
評估指標（測試集字符錯誤率）	434.011