wav2vec2-large-xls-r-300m-ha-cv8開源模型 - 輕鬆實現豪薩語語音識別

首頁

Wav2vec2 Large Xls R 300m Ha Cv8

由anuragshas開發

基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的豪薩語語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #豪薩語語音識別 #低資源語言ASR #Wav2Vec2微調

下載量 17

發布時間 : 3/2/2022

模型概述

這是一個針對豪薩語優化的自動語音識別(ASR)模型，基於XLS-R-300M架構，在Common Voice 8.0豪薩語數據集上微調。

模型特點

豪薩語優化

專門針對豪薩語語音識別任務進行微調優化

基於XLS-R架構

採用Facebook的XLS-R-300M預訓練模型作為基礎

低詞錯誤率

在測試集上達到36.295%的WER(帶語言模型)

模型能力

豪薩語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉錄

豪薩語語音轉寫

將豪薩語語音內容轉換為文本

測試集WER 36.295%

語音助手

豪薩語語音交互

支持豪薩語語音指令識別

🚀 XLS - R - 300M - 豪薩語

本模型是在通用語音數據集上對 [facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m) 進行微調後的版本。它在評估集上取得了以下成績：

損失值：0.6094
詞錯誤率（Wer）：0.5234

🚀 快速開始

本模型在評估集上有較好的表現，以下是一些使用相關的信息。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

以下是使用語言模型進行推理的示例代碼：

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-ha-cv8"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "ha", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "kakin hade ya ke da kyautar"

高級用法

評估命令

在 mozilla - foundation/common_voice_8_0 數據集的 test 分割上進行評估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-ha-cv8 --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

📚 詳細文檔

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0001
訓練批次大小：16
評估批次大小：8
隨機種子：13
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：帶重啟的餘弦退火
學習率調度器熱身步數：1000
訓練輪數：100

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
2.9599	6.56	400	2.8650	1.0
2.7357	13.11	800	2.7377	0.9951
1.3012	19.67	1200	0.6686	0.7111
1.0454	26.23	1600	0.5686	0.6137
0.9069	32.79	2000	0.5576	0.5815
0.82	39.34	2400	0.5502	0.5591
0.7413	45.9	2800	0.5970	0.5586
0.6872	52.46	3200	0.5817	0.5428
0.634	59.02	3600	0.5636	0.5314
0.6022	65.57	4000	0.5780	0.5229
0.5705	72.13	4400	0.6036	0.5323
0.5408	78.69	4800	0.6119	0.5336
0.5225	85.25	5200	0.6105	0.5270
0.5265	91.8	5600	0.6034	0.5231
0.5154	98.36	6000	0.6094	0.5234