wav2vec2-large-xlsr-53-punjabi开源模型 - 免费实现旁遮普语自动语音识别

首页

Wav2vec2 Large Xlsr 53 Punjabi

由 kingabzpro 开发

这是一个基于Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在Common Voice数据集上微调的旁遮普语自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #旁遮普语语音识别 #低词错误率 #多方言支持

下载量 189

发布时间 : 3/2/2022

模型简介

该模型用于旁遮普语的自动语音识别任务，能够将旁遮普语语音转换为文本

模型特点

高精度语音识别

在Common Voice pa-IN测试集上取得了36.02的WER和12.81的CER

基于大模型微调

基于Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10模型微调，继承了强大的语音特征提取能力

支持语言模型集成

支持与语言模型结合使用，提高识别准确率

模型能力

旁遮普语语音识别

语音转文本

支持16kHz采样率音频处理

使用案例

语音转录

旁遮普语语音转录

将旁遮普语语音内容转换为文本

在测试集上达到36.02 WER

语音助手

旁遮普语语音助手

用于开发支持旁遮普语的语音助手应用

🚀 wav2vec2-large-xlsr-53-punjabi

本模型是基于Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10在common_voice数据集上进行微调的版本。它在评估集上取得了以下结果：

损失：1.2101
字错率（Wer）：0.4939
字符错误率（Cer）：0.2238

🚀 快速开始

评估命令

在mozilla-foundation/common_voice_8_0数据集的test分割上进行评估：

python eval.py --model_id kingabzpro/wav2vec2-large-xlsr-53-punjabi --dataset mozilla-foundation/common_voice_8_0 --config pa-IN --split test

带语言模型的推理

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "kingabzpro/wav2vec2-large-xlsr-53-punjabi"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "pa-IN", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text

✨ 主要特性

基于预训练模型Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10进行微调，适用于旁遮普语的自动语音识别任务。
在mozilla-foundation/common_voice_8_0数据集上进行训练和评估，具有一定的泛化能力。

📦 安装指南

文档中未提及安装相关内容，若有需要可根据使用的框架（如transformers、datasets等）进行安装，例如使用pip安装：

pip install transformers datasets torchaudio

💻 使用示例

基础用法

上述“带语言模型的推理”部分的代码即为基础的使用示例，通过加载模型和处理器，对音频数据进行重采样后进行推理，得到转录结果。

高级用法

文档中未提及高级用法相关内容，可根据具体需求对模型进行进一步的调整和优化，例如调整推理时的参数、结合其他模型等。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型
训练数据	mozilla-foundation/common_voice_8_0
基础模型	Harveenchadha/vakyansh-wav2vec2-punjabi-pam-10
评估指标	Wer（字错率）、Cer（字符错误率）

评估结果

任务	数据集	评估指标	值
语音识别	Common Voice pa-IN	Test WER With LM	36.02
语音识别	Common Voice pa-IN	Test CER With LM	12.81

训练超参数

学习率：0.0003
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器预热步数：200
训练轮数：30
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	Wer	Cer
11.0563	3.7	100	1.9492	0.7123	0.3872
1.6715	7.41	200	1.3142	0.6433	0.3086
0.9117	11.11	300	1.2733	0.5657	0.2627
0.666	14.81	400	1.2730	0.5598	0.2534
0.4225	18.52	500	1.2548	0.5300	0.2399
0.3209	22.22	600	1.2166	0.5229	0.2372
0.2678	25.93	700	1.1795	0.5041	0.2276
0.2088	29.63	800	1.2101	0.4939	0.2238