wav2vec2-large-xlsr-53-finnishオープンソースのフィンランド語音声認識モデル

ホーム

Wav2vec2 Large Xlsr 53 Finnish

jonatasgrosmanによって開発

XLSR-53大規模モデルをファインチューニングしたフィンランド語音声認識モデル、16kHz音声入力に対応

音声認識その他オープンソースライセンス:Apache-2.0 #フィンランド語音声認識 #XLSR-53ファインチューニング #マルチソースデータトレーニング

ダウンロード数 73.11k

リリース時間 : 3/2/2022

モデル概要

フィンランド語に最適化された自動音声認識モデル、Common VoiceとCSS10データセットでトレーニング

モデル特徴

フィンランド語最適化

フィンランド語の音声特徴に特化してファインチューニング

XLSR-53アーキテクチャ

強力なクロスリンガル音声表現モデルアーキテクチャを基盤

マルチデータセットトレーニング

Common Voice 6.1とCSS10データセットを組み合わせてトレーニング

モデル能力

フィンランド語音声テキスト変換

16kHz音声処理

使用事例

音声文字起こし

フィンランド語音声転写

フィンランド語音声をテキストに変換

テストWER 41.60%、CER 8.23%

🚀 XLSR-53大規模モデルのフィンランド語音声認識への微調整

このモデルは、Common Voice 6.1 と CSS10 のトレーニングと検証データセットを使用して、フィンランド語に対して facebook/wav2vec2-large-xlsr-53 を微調整したものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルの微調整には、OVHcloud から提供されたGPUクレジットを利用しています。

トレーニングに使用されたスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、言語モデルなしで直接使用することができます。

✨ 主な機能

フィンランド語の音声認識に特化した微調整済みモデルです。
16kHzの音声入力に最適化されています。

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用する場合:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-finnish")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する場合:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

推論結果の例

参照文	予測文
MYSTEERIMIES OLI OPPINUT MORAALINSA TARUISTA, ELOKUVISTA JA PELEISTÄ.	MYSTEERIMIES OLI OPPINUT MORALINSA TARUISTA ELOKUVISTA JA PELEISTÄ
ÄÄNESTIN MIETINNÖN PUOLESTA!	ÄÄNESTIN MIETINNÖN PUOLESTA
VAIN TUNTIA AIKAISEMMIN OLIMME MIEHENI KANSSA TUNTENEET SUURINTA ILOA.	PAIN TUNTIA AIKAISEMMIN OLIN MIEHENI KANSSA TUNTENEET SUURINTA ILAA
ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA.	ENSIMMÄISELLE MIEHELLE SAI KOLME LASTA
ÄÄNESTIN MIETINNÖN PUOLESTA, SILLÄ POHJIMMILTAAN SIINÄ VASTUSTETAAN TÄTÄ SUUNTAUSTA.	ÄÄNESTIN MIETINNÖN PUOLESTA SILLÄ POHJIMMILTAAN SIINÄ VASTOTTETAAN TÄTÄ SUUNTAUSTA
TÄHDENLENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT?	TÄHDEN LENTOJENKO VARALTA MINÄ SEN OLISIN TÄNNE KUSKANNUT
SIITÄ SE TULEE.	SIITA SE TULEE
NIIN, KUULUU KIROUS, JA KAUHEA KARJAISU.	NIIN KUULUU KIROUS JA KAUHEA KARJAISU
ARKIT KUN OVAT NÄES ELEMENTTIRAKENTEISIA.	ARKIT KUN OVAT MÄISS' ELÄMÄTTEROKENTEISIÄ
JÄIN ALUKSEN SISÄÄN, MUTTA KUULIN OVEN LÄPI, ETTÄ ULKOPUOLELLA ALKOI TAPAHTUA.	JAKALOKSEHÄN SISÄL MUTTA KUULIN OVENLAPI ETTÄ ULKA KUOLLALLA ALKOI TAPAHTUA

📚 ドキュメント

評価

このモデルは、Common Voiceのフィンランド語テストデータで以下のように評価できます。

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fi"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-finnish"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

テスト結果

以下の表に、このモデルの単語誤り率 (WER) と文字誤り率 (CER) を示します。他のモデルについても同じ評価スクリプトを実行しました (2021年4月21日)。ただし、以下の表の結果は、他の評価スクリプトで報告された結果と異なる場合があります。

モデル	WER	CER
aapot/wav2vec2-large-xlsr-53-finnish	32.51%	5.34%
Tommi/wav2vec2-large-xlsr-53-finnish	35.22%	5.81%
vasilis/wav2vec2-large-xlsr-53-finnish	38.24%	6.49%
jonatasgrosman/wav2vec2-large-xlsr-53-finnish	41.60%	8.23%
birgermoell/wav2vec2-large-xlsr-finnish	53.51%	9.18%

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📚 引用

このモデルを引用する場合は、以下のようにしてください。

@misc{grosman2021xlsr53-large-finnish,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {F}innish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-finnish}},
  year={2021}
}