wav2vec2-large-xlsr-53-finnish開源芬蘭語語音識別模型

首頁

Wav2vec2 Large Xlsr 53 Finnish

由jonatasgrosman開發

基於XLSR-53大模型微調的芬蘭語語音識別模型，支持16kHz音頻輸入

語音識別其他開源協議:Apache-2.0 #芬蘭語語音識別 #XLSR-53微調 #多源數據訓練

下載量 73.11k

發布時間 : 3/2/2022

模型概述

針對芬蘭語優化的自動語音識別模型，基於Common Voice和CSS10數據集訓練

模型特點

芬蘭語優化

專門針對芬蘭語語音特徵進行微調

XLSR-53架構

基於強大的跨語言語音表示模型架構

多數據集訓練

使用Common Voice 6.1和CSS10數據集聯合訓練

模型能力

芬蘭語語音轉文本

16kHz音頻處理

使用案例

語音轉錄

芬蘭語語音轉寫

將芬蘭語語音轉換為文本

測試WER 41.60%，CER 8.23%

🚀 用於芬蘭語語音識別的微調XLSR - 53大模型

本項目基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice 6.1和CSS10的訓練集和驗證集對芬蘭語進行微調。使用此模型時，請確保語音輸入採樣率為16kHz。

該模型的微調得益於OVHcloud慷慨提供的GPU計算資源。訓練腳本可在此處找到。

🚀 快速開始

本模型可直接使用（無需語言模型），以下為使用示例。

💻 使用示例

基礎用法

使用HuggingSound庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-finnish")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是預測結果示例：

參考文本	預測文本
MYSTEERIMIES OLI OPPINUT MORAALINSA TARUISTA, ELOKUVISTA JA PELEISTÄ.	MYSTEERIMIES OLI OPPINUT MORALINSA TARUISTA ELOKUVISTA JA PELEISTÄ
ÄÄNESTIN MIETINNÖN PUOLESTA!	ÄÄNESTIN MIETINNÖN PUOLESTA
VAIN TUNTIA AIKAISEMMIN OLIMME MIEHENI KANSSA TUNTENEET SUURINTA ILOA.	PAIN TUNTIA AIKAISEMMIN OLIN MIEHENI KANSSA TUNTENEET SUURINTA ILAA
ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA.	ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA
ÄÄNESTIN MIETINNÖN PUOLESTA, SILLÄ POHJIMMILTAAN SIINÄ VASTUSTETAAN TÄTÄ SUUNTAUSTA.	ÄÄNESTIN MIETINNÖN PUOLESTA SILLÄ POHJIMMILTAAN SIINÄ VASTOTTETAAN TÄTÄ SUUNTAUSTA
TÄHDENLENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT?	TÄHDEN LENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT
SIITÄ SE TULEE.	SIITA SE TULEE
NIIN, KUULUU KIROUS, JA KAUHEA KARJAISU.	NIIN KUULUU KIROUS JA KAUHEA KARJAISU
ARKIT KUN OVAT NÄES ELEMENTTIRAKENTEISIA.	ARKIT KUN OVAT MÄISS' ELÄMÄTTEROKENTEISIÄ
JÄIN ALUKSEN SISÄÄN, MUTTA KUULIN OVEN LÄPI, ETTÄ ULKOPUOLELLA ALKOI TAPAHTUA.	JAKALOKSEHÄN SISÄL MUTTA KUULIN OVENLAPI ETTÄ ULKA KUOLLALLA ALKOI TAPAHTUA

📚 詳細文檔

評估模型

可使用以下代碼在Common Voice芬蘭語測試數據上評估模型：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

測試結果

以下表格展示了該模型以及其他模型的詞錯誤率（WER）和字符錯誤率（CER）。評估腳本於2021年4月21日運行。請注意，表格中的結果可能與之前報告的結果不同，這可能是由於使用的其他評估腳本的特殊性導致的。

模型	詞錯誤率（WER）	字符錯誤率（CER）
aapot/wav2vec2-large-xlsr-53-finnish	32.51%	5.34%
Tommi/wav2vec2-large-xlsr-53-finnish	35.22%	5.81%
vasilis/wav2vec2-large-xlsr-53-finnish	38.24%	6.49%
jonatasgrosman/wav2vec2-large-xlsr-53-finnish	41.60%	8.23%
birgermoell/wav2vec2-large-xlsr-finnish	53.51%	9.18%

📄 許可證

本模型採用Apache - 2.0許可證。

📚 引用

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-finnish,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {F}innish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-finnish}},
  year={2021}
}

模型信息

屬性	詳情
模型類型	微調的XLSR - 53大模型
訓練數據	Common Voice 6.1和CSS10的芬蘭語數據
評估指標	詞錯誤率（WER）、字符錯誤率（CER）
標籤	音頻、自動語音識別、語音、XLSR微調周