wav2vec2-xls-r-300m-cs-cv8開源語音識別模型

首頁

Wav2vec2 Xls R 300m Cs Cv8

由comodoro開發

基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0捷克語數據集上微調的語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #捷克語語音識別 #XLSR微調 #低CER

下載量 13

發布時間 : 3/2/2022

模型概述

該模型是針對捷克語優化的自動語音識別(ASR)模型，基於Wav2Vec2架構，在Common Voice 8.0數據集上微調，支持16kHz採樣率的語音輸入。

模型特點

高性能捷克語識別

在Common Voice 8.0測試集上達到10.3%的WER和2.6%的CER

基於XLSR架構

使用facebook的wav2vec2-xls-r-300m作為基礎模型，具有強大的跨語言表示能力

無需語言模型

可直接使用，無需額外語言模型支持

模型能力

捷克語語音識別

16kHz音頻處理

端到端語音轉文本

使用案例

語音轉寫

語音筆記轉文字

將捷克語語音筆記轉換為可編輯文本

高準確率的文本輸出

語音助手

用於捷克語語音助手應用的語音識別組件

低延遲的語音理解

語音分析

語音內容分析

分析捷克語語音內容並提取關鍵信息

支持後續自然語言處理任務

🚀 捷克語語音識別模型（wav2vec2-xls-r-300m-cs-cv8）

本模型基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0數據集上微調而來，可用於捷克語的自動語音識別任務，能有效將語音轉換為文本。

🚀 快速開始

直接使用模型（無需語言模型）

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "cs", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-cs-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 預處理數據集
# 需要將音頻文件讀取為數組
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

評估模型

使用附帶的eval.py腳本評估模型：

python eval.py --model_id comodoro/wav2vec2-xls-r-300m-cs-cv8 --dataset mozilla-foundation/common-voice_8_0 --split test --config cs

✨ 主要特性

基於facebook/wav2vec2-xls-r-300m模型在Common Voice 8.0數據集上進行微調，適用於捷克語語音識別。
訓練過程中採用了不同階段的超參數調整，以達到更好的性能。

📦 安裝指南

文檔未提及安裝相關內容，可參考模型依賴庫（如transformers、torchaudio等）的官方安裝說明進行安裝。

📚 詳細文檔

模型描述

該模型是在捷克語上對facebook/wav2vec2-large-xlsr-53進行微調得到的，使用的是Common Voice數據集。使用此模型時，請確保語音輸入的採樣率為16kHz。

評估結果

訓練時在評估集上取得了以下結果：

Loss: 0.2327
Wer: 0.1608
Cer: 0.0376

使用語言模型運行eval.py腳本的結果：

WER: 0.10281503199350225
CER: 0.02622802241689026

訓練和評估數據

訓練使用了Common Voice 8.0的train和validation數據集。

訓練過程

訓練超參數

第一階段訓練使用的超參數：

學習率：7e-05
訓練批次大小：32
評估批次大小：8
隨機種子：42
梯度累積步數：20
總訓練批次大小：640
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：150
混合精度訓練：Native AMP

第二階段訓練使用的超參數：

學習率：0.001
訓練批次大小：32
評估批次大小：8
隨機種子：42
梯度累積步數：20
總訓練批次大小：640
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：500
訓練輪數：50
混合精度訓練：Native AMP

訓練結果

第一階段訓練結果：

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）	字符錯誤率（Cer）
7.2926	8.06	250	3.8497	1.0	1.0
3.417	16.13	500	3.2852	1.0	0.9857
2.0264	24.19	750	0.7099	0.7342	0.1768
0.4018	32.25	1000	0.6188	0.6415	0.1551
0.2444	40.32	1250	0.6632	0.6362	0.1600
0.1882	48.38	1500	0.6070	0.5783	0.1388
0.153	56.44	1750	0.6425	0.5720	0.1377
0.1214	64.51	2000	0.6363	0.5546	0.1337
0.1011	72.57	2250	0.6310	0.5222	0.1224
0.0879	80.63	2500	0.6353	0.5258	0.1253
0.0782	88.7	2750	0.6078	0.4904	0.1127
0.0709	96.76	3000	0.6465	0.4960	0.1154
0.0661	104.82	3250	0.6622	0.4945	0.1166
0.0616	112.89	3500	0.6440	0.4786	0.1104
0.0579	120.95	3750	0.6815	0.4887	0.1144
0.0549	129.03	4000	0.6603	0.4780	0.1105
0.0527	137.09	4250	0.6652	0.4749	0.1090
0.0506	145.16	4500	0.6958	0.4846	0.1133

進一步微調（架構略有不同，學習率更高）的結果：

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）	字符錯誤率（Cer）
0.576	8.06	250	0.2411	0.2340	0.0502
0.2564	16.13	500	0.2305	0.2097	0.0492
0.2018	24.19	750	0.2371	0.2059	0.0494
0.1549	32.25	1000	0.2298	0.1844	0.0435
0.1224	40.32	1250	0.2288	0.1725	0.0407
0.1004	48.38	1500	0.2327	0.1608	0.0376