wav2vec2-large-xls-r-300m-ha-cv8开源模型 - 轻松实现豪萨语语音识别

首页

Wav2vec2 Large Xls R 300m Ha Cv8

由 anuragshas 开发

基于facebook/wav2vec2-xls-r-300m在通用语音数据集上微调的豪萨语语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #豪萨语语音识别 #低资源语言ASR #Wav2Vec2微调

下载量 17

发布时间 : 3/2/2022

模型简介

这是一个针对豪萨语优化的自动语音识别(ASR)模型，基于XLS-R-300M架构，在Common Voice 8.0豪萨语数据集上微调。

模型特点

豪萨语优化

专门针对豪萨语语音识别任务进行微调优化

基于XLS-R架构

采用Facebook的XLS-R-300M预训练模型作为基础

低词错误率

在测试集上达到36.295%的WER(带语言模型)

模型能力

豪萨语语音识别

音频转文本

语音转录

使用案例

语音转录

豪萨语语音转写

将豪萨语语音内容转换为文本

测试集WER 36.295%

语音助手

豪萨语语音交互

支持豪萨语语音指令识别

🚀 XLS - R - 300M - 豪萨语

本模型是在通用语音数据集上对 [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) 进行微调后的版本。它在评估集上取得了以下成绩：

损失值：0.6094
词错误率（Wer）：0.5234

🚀 快速开始

本模型在评估集上有较好的表现，以下是一些使用相关的信息。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

以下是使用语言模型进行推理的示例代码：

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-ha-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "ha", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "kakin hade ya ke da kyautar"

高级用法

评估命令

在 mozilla - foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-ha-cv8 --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

📚 详细文档

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：0.0001
训练批次大小：16
评估批次大小：8
随机种子：13
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：带重启的余弦退火
学习率调度器热身步数：1000
训练轮数：100

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
2.9599	6.56	400	2.8650	1.0
2.7357	13.11	800	2.7377	0.9951
1.3012	19.67	1200	0.6686	0.7111
1.0454	26.23	1600	0.5686	0.6137
0.9069	32.79	2000	0.5576	0.5815
0.82	39.34	2400	0.5502	0.5591
0.7413	45.9	2800	0.5970	0.5586
0.6872	52.46	3200	0.5817	0.5428
0.634	59.02	3600	0.5636	0.5314
0.6022	65.57	4000	0.5780	0.5229
0.5705	72.13	4400	0.6036	0.5323
0.5408	78.69	4800	0.6119	0.5336
0.5225	85.25	5200	0.6105	0.5270
0.5265	91.8	5600	0.6034	0.5231
0.5154	98.36	6000	0.6094	0.5234