wav2vec2-xls-r-300m-sk-cv8開源語音識別模型 - 精準識別斯洛伐克語語音

首頁

Wav2vec2 Xls R 300m Sk Cv8

由comodoro開發

基於facebook/wav2vec2-xls-r-300m在Common Voice 8.0斯洛伐克語數據集上微調的語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #斯洛伐克語語音識別 #XLSR微調模型 #Common Voice數據集

下載量 64.15k

發布時間 : 3/2/2022

模型概述

該模型是針對斯洛伐克語的自動語音識別(ASR)模型，基於Wav2Vec2 XLSR架構，在Common Voice 8.0數據集上微調而成。

模型特點

高性能語音識別

在Common Voice 8.0測試集上取得49.6%的WER和13.3%的CER

無需語言模型

可直接使用，無需額外的語言模型支持

多數據集適應

在Common Voice和魯棒語音事件數據集上均有評估結果

模型能力

斯洛伐克語語音識別

自動語音轉文本

音頻內容理解

使用案例

語音轉寫

語音備忘錄轉文本

將斯洛伐克語語音備忘錄自動轉換為可編輯文本

準確率約50.4%(1-WER)

語音交互系統

斯洛伐克語語音助手

為斯洛伐克語用戶提供語音交互界面

🚀 wav2vec2-xls-r-300m-cs-cv8

本模型是 facebook/wav2vec2-xls-r-300m 在 common_voice 8.0 數據集上的微調版本。它在自動語音識別任務中表現出色，能夠將音頻準確地轉換為文本，為語音相關應用提供了強大的支持。

🚀 快速開始

本模型可直接使用（無需語言模型），以下是使用示例：

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "sk", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

✨ 主要特性

微調優化：基於 facebook/wav2vec2-xls-r-300m 在 common_voice 8.0 數據集上進行微調，更適配特定語音識別任務。
多指標評估：在評估集上提供了 WER（詞錯誤率）和 CER（字符錯誤率）等指標，方便衡量模型性能。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "sk", split="test[:2%]")

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

高級用法

# 可根據實際需求，修改數據集加載部分，如使用不同的數據集分割或其他數據集
test_dataset = load_dataset("mozilla-foundation/common_voice_8_0", "sk", split="test[:5%]")
# 其他代碼保持不變
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

processor = Wav2Vec2Processor.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")
model = Wav2Vec2ForCTC.from_pretrained("comodoro/wav2vec2-xls-r-300m-sk-cv8")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
	speech_array, sampling_rate = torchaudio.load(batch["path"])
	batch["speech"] = resampler(speech_array).squeeze().numpy()
	return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

📚 詳細文檔

評估

可使用附帶的 eval.py 腳本對模型進行評估：

python eval.py --model_id comodoro/wav2vec2-xls-r-300m-sk-cv8 --dataset mozilla-foundation/common_voice_8_0 --split test --config sk

訓練和評估數據

訓練使用了 Common Voice 8.0 的 train 和 validation 數據集。

訓練超參數

訓練過程中使用了以下超參數：

屬性	詳情
學習率	7e-4
訓練批次大小	32
評估批次大小	8
隨機種子	42
梯度累積步數	20
總訓練批次大小	640
優化器	Adam（betas=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型	線性
學習率調度器熱身步數	500
訓練輪數	50
混合精度訓練	Native AMP