wav2vec2-large-xlsr-53-dutch開源荷蘭語語音識別模型

首頁

Wav2vec2 Large Xlsr 53 Dutch

由jonatasgrosman開發

基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型，在Common Voice和CSS10數據集上訓練，支持16kHz音頻輸入。

語音識別其他開源協議:Apache-2.0 #荷蘭語語音識別 #XLSR-53微調 #低詞錯誤率(WER)

下載量 3.0M

發布時間 : 3/2/2022

模型概述

針對荷蘭語優化的自動語音識別(ASR)模型，基於XLSR-53架構，適用於將荷蘭語語音轉換為文本。

模型特點

多數據集訓練

使用Common Voice 6.1和CSS10數據集的訓練集與驗證集進行微調

語言模型支持

可結合語言模型使用，顯著提升識別準確率(WER從15.72降至12.84)

高效語音處理

支持16kHz採樣率的語音輸入，適合即時語音識別場景

模型能力

荷蘭語語音識別

音頻轉文本

支持帶語言模型的增強識別

使用案例

語音轉寫

荷蘭語語音轉錄

將荷蘭語語音內容轉換為文本格式

測試集WER 15.72/CER 5.35

語音助手

荷蘭語語音指令識別

用於語音助手或智能家居設備的荷蘭語指令識別

🚀 用於荷蘭語語音識別的微調XLSR - 53大型模型

本模型是在荷蘭語語音識別任務上微調的模型，基於facebook/wav2vec2-large-xlsr-53，使用了Common Voice 6.1和CSS10的訓練集和驗證集進行微調。它能有效識別荷蘭語語音，為荷蘭語語音處理提供了強大的工具。

🚀 快速開始

本模型是在荷蘭語上對facebook/wav2vec2-large-xlsr-53進行微調得到的，使用了Common Voice 6.1和CSS10的訓練集和驗證集。使用此模型時，請確保語音輸入的採樣率為16kHz。

該模型的微調得益於OVHcloud慷慨提供的GPU算力支持。

訓練腳本可在此處找到：https://github.com/jonatasgrosman/wav2vec2-sprint

✨ 主要特性

數據集：使用了common_voice和mozilla-foundation/common_voice_6_0等數據集進行訓練。
評估指標：使用了字錯誤率（WER）和字符錯誤率（CER）作為評估指標。
應用場景：適用於自動語音識別任務。

屬性	詳情
模型類型	用於荷蘭語語音識別的微調XLSR - 53大型模型
訓練數據	common_voice、mozilla - foundation/common_voice_6_0

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

使用HuggingSound庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-dutch")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "nl"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是一些實際的識別結果示例：

參考文本	預測文本
DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË.	DE ABBORIGENALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË
MIJN TOETSENBORD ZIT VOL STOF.	MIJN TOETSENBORD ZIT VOL STOF
ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD.	ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD
WAAR LAAT JIJ JE ONDERHOUD DOEN?	WAAR LAAT JIJ HET ONDERHOUD DOEN
NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD.	NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QUERTITOETSEMBORD
DE TAMPONS ZIJN OP.	DE TAPONT ZIJN OP
MARIJKE KENT OLIVIER NU AL MEER DAN TWEE JAAR.	MAARRIJKEN KENT OLIEVIER NU AL MEER DAN TWEE JAAR
HET VOEREN VAN BROOD AAN EENDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN.	HET VOEREN VAN BEUROT AAN EINDEN IS EIGENLIJK ONGEZOND VOOR DE BEESTEN
PARKET MOET JE STOFZUIGEN, TEGELS MOET JE DWEILEN.	PARKET MOET JE STOF ZUIGEN MAAR TEGELS MOET JE DWEILEN
IN ONZE BUURT KENT IEDEREEN ELKAAR.	IN ONZE BUURT KENT IEDEREEN ELKAAR

📚 詳細文檔

評估

在mozilla-foundation/common_voice_6_0的test分割集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset mozilla-foundation/common_voice_6_0 --config nl --split test

在speech-recognition-community-v2/dev_data上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-dutch --dataset speech-recognition-community-v2/dev_data --config nl --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 許可證

本模型使用Apache 2.0許可證。

🔗 引用

如果您想引用此模型，可以使用以下格式：

@misc{grosman2021xlsr53-large-dutch,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {D}utch},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-dutch}},
  year={2021}
}