wav2vec2-large-xls-r-300m-bg開源語音識別模型 - 精準識別保加利亞語語音

首頁

Wav2vec2 Large Xls R 300m Bg

由anuragshas開發

基於facebook/wav2vec2-xls-r-300m在Common Voice 8保加利亞語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #保加利亞語語音識別 #低詞錯誤率 #多場景適配

下載量 1,469

發布時間 : 3/2/2022

模型概述

這是一個針對保加利亞語優化的自動語音識別(ASR)模型，基於XLS-R-300M架構，在Mozilla Common Voice 8數據集上微調而成。

模型特點

多數據集評估

在Common Voice 8和魯棒語音賽事數據集上進行了全面評估

高性能

在Common Voice 8測試集上取得21.195%的WER和4.786%的CER

優化訓練

經過50輪精心調優的訓練過程，逐步降低損失和錯誤率

模型能力

保加利亞語語音識別

音頻轉文本

長音頻處理(支持分塊處理)

使用案例

語音轉錄

語音備忘錄轉錄

將保加利亞語語音備忘錄轉換為可搜索的文本

準確率約80% (WER 21.195%)

語音助手

為保加利亞語語音助手提供語音識別能力

語音分析

語音內容分析

分析保加利亞語語音內容以提取關鍵信息

🚀 XLS-R-300M - 保加利亞語

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 數據集上的微調版本。它在評估集上取得了以下成果：

損失：0.2473
詞錯誤率（Wer）：0.3002

🚀 快速開始

本模型是基於預訓練模型在特定數據集上微調得到，可用於保加利亞語的自動語音識別任務。以下是評估和推理的相關信息。

✨ 主要特性

基於預訓練模型 facebook/wav2vec2-xls-r-300m 微調，適用於保加利亞語語音識別。
提供了詳細的訓練超參數和訓練結果記錄。
給出了不同數據集上的評估命令和推理代碼示例。

📦 安裝指南

文檔未提及具體安裝步驟，可參考原預訓練模型 facebook/wav2vec2-xls-r-300m 的安裝說明。

💻 使用示例

基礎用法

評估命令

在 mozilla-foundation/common_voice_8_0 數據集的 test 分割上進行評估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset mozilla-foundation/common_voice_8_0 --config bg --split test

在 speech-recognition-community-v2/dev_data 數據集上進行評估：

python eval.py --model_id anuragshas/wav2vec2-large-xls-r-300m-bg --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 5.0 --stride_length_s 1.0

高級用法

帶語言模型的推理

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "anuragshas/wav2vec2-large-xls-r-300m-bg"
sample_iter = iter(load_dataset("mozilla-foundation/common_voice_8_0", "bg", split="test", streaming=True, use_auth_token=True))
sample = next(sample_iter)
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
    logits = model(input_values).logits
transcription = processor.batch_decode(logits.numpy()).text
# => "и надутият му ката блоонкурем взе да се събира"

📚 詳細文檔

模型信息

屬性	詳情
模型類型	XLS-R-300M - 保加利亞語
訓練數據	MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BG 數據集

評估結果

本模型在以下任務和數據集上的評估結果如下：

任務	數據集	測試詞錯誤率 (WER)	測試字符錯誤率 (CER)
自動語音識別	Common Voice 8	21.195	4.786
自動語音識別	Robust Speech Event - Dev Data	32.667	12.452
自動語音識別	Robust Speech Event - Test Data	31.03	未提及

評估集結果

無語言模型	帶語言模型 (運行 `./eval.py`)
30.07	21.195

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：7.5e-05
訓練批次大小：32
評估批次大小：16
隨機種子：42
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：50.0
混合精度訓練：原生自動混合精度 (Native AMP)

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率 (Wer)
3.1589	3.48	400	3.0830	1.0
2.8921	6.96	800	2.6605	0.9982
1.3049	10.43	1200	0.5069	0.5707
1.1349	13.91	1600	0.4159	0.5041
1.0686	17.39	2000	0.3815	0.4746
0.999	20.87	2400	0.3541	0.4343
0.945	24.35	2800	0.3266	0.4132
0.9058	27.83	3200	0.2969	0.3771
0.8672	31.3	3600	0.2802	0.3553
0.8313	34.78	4000	0.2662	0.3380
0.8068	38.26	4400	0.2528	0.3181
0.7796	41.74	4800	0.2537	0.3073
0.7621	45.22	5200	0.2503	0.3036
0.7611	48.7	5600	0.2477	0.2991