wav2vec2-large-xlsr-53-ギリシャ語オープンソースのギリシャ語音声認識モデル

Wav2vec2 Large Xlsr 53 Greek

jonatasgrosmanによって開発

これはギリシャ語音声認識タスクに対して微調整されたXLSR - 53大規模モデルで、facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voice 6.1とCSS10データセットを使用して訓練されました。

音声認識その他オープンソースライセンス:Apache-2.0 #ギリシャ語音声認識 #XLSR - 53微調整 #低い単語誤り率

ダウンロード数 130.81k

リリース時間 : 3/2/2022

モデル概要

このモデルは専門的にギリシャ語自動音声認識(ASR)に使用され、ギリシャ語の音声をテキストに変換することができます。

モデル特徴

高性能ギリシャ語認識

Common Voiceギリシャ語テストセットで11.62%の単語誤り率(WER)と3.36%の文字誤り率(CER)を達成しました。

XLSR - 53大規模モデルをベースとする

facebook/wav2vec2-large-xlsr-53モデルを微調整しており、強力な音声特徴抽出能力を持っています。

複数のデータセットでの訓練

Common Voice 6.1とCSS10データセットを使用して訓練され、多様な音声シーンをカバーしています。

モデル能力

ギリシャ語音声認識

16kHzオーディオ処理

言語モデルなしで直接使用可能

使用事例

音声からテキストへの変換

ギリシャ語音声の文字起こし

ギリシャ語の音声内容をテキストに変換します。

正確率が88.38%(1 - WER)に達しました。

音声アシスタント

ギリシャ語音声指令の認識

ギリシャ語の音声アシスタントまたは制御システムの指令認識に使用されます。

🚀 ギリシャ語音声認識用に微調整されたXLSR - 53大規模モデル

このプロジェクトでは、facebook/wav2vec2-large-xlsr-53 モデルを微調整し、ギリシャ語の音声認識に適用できるようにしています。微調整には、Common Voice 6.1 と CSS10 のトレーニングセットと検証セットを使用しています。このモデルを使用する際には、音声入力のサンプリングレートが16kHzであることを確認してください。

このモデルの微調整には、OVHcloud が提供してくれたGPU計算リソースが大いに役立ちました。トレーニングスクリプトはこちらで見ることができます。

🚀 クイックスタート

このモデルは、追加の言語モデルを必要とせずに、ギリシャ語の音声認識に直接使用できます。以下に、2つの使用方法を紹介します。

📦 インストール

このモデルを使用するには、いくつかのPythonライブラリが必要です。以下のコマンドでインストールできます。

pip install huggingsound datasets transformers librosa torch

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用して音声認識を行う方法です。

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-greek")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを作成する方法です。

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "el"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-greek"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下は、一部の認識結果の例です。

参考テキスト	予測テキスト
ΤΟ ΒΑΣΙΛΌΠΟΥΛΟ, ΠΟΥ ΜΟΙΆΖΕΙ ΛΕΟΝΤΑΡΆΚΙ ΚΑΙ ΑΕΤΟΥΔΆΚΙ	ΤΟ ΒΑΣΙΛΌΠΟΥΛΟ ΠΟΥ ΜΙΑΣΕ ΛΙΟΝΤΑΡΑΚΉ ΚΑΙ ΑΪΤΟΥΔΆΚΙ
ΣΥΝΆΜΑ ΞΕΠΡΌΒΑΛΑΝ ΑΠΌ ΜΈΣΑ ΑΠΌ ΤΑ ΔΈΝΤΡΑ, ΔΕΞΙΆ, ΑΡΜΑΤΩΜΈΝΟΙ ΚΑΒΑΛΑΡΈΟΙ.	ΣΥΝΆΜΑ ΚΑΙ ΤΡΌΒΑΛΑΝ ΑΠΌ ΜΈΣΑ ΑΠΌ ΤΑ ΔΈΝΤΡΑ ΔΕΞΙΆ ΑΡΜΑΤΩΜΈΝΟΙ ΚΑΒΑΛΑΡΈΟΙ
ΤΑ ΣΥΣΚΕΥΑΣΜΈΝΑ ΒΙΟΛΟΓΙΚΆ ΛΑΧΑΝΙΚΆ ΔΕΝ ΠΕΡΙΈΧΟΥΝ ΣΥΝΤΗΡΗΤΙΚΆ ΚΑΙ ΟΡΜΌΝΕΣ	ΤΑ ΣΥΣΚΕΦΑΣΜΈΝΑ ΒΙΟΛΟΓΙΚΆ ΛΑΧΑΝΙΚΆ ΔΕΝ ΠΕΡΙΈΧΟΥΝ ΣΙΔΗΡΗΤΙΚΆ ΚΑΙ ΟΡΜΌΝΕΣ
ΑΚΟΛΟΥΘΉΣΕΤΕ ΜΕ!	ΑΚΟΛΟΥΘΉΣΤΕ ΜΕ
ΚΑΙ ΠΟΎ ΜΠΟΡΏ ΝΑ ΤΟΝ ΒΡΩ;	Ε ΠΟΎ ΜΠΟΡΏ ΝΑ ΤΙ ΕΒΡΩ
ΝΑΙ! ΑΠΟΚΡΊΘΗΚΕ ΤΟ ΠΑΙΔΊ	ΝΑΙ ΑΠΟΚΡΊΘΗΚΕ ΤΟ ΠΑΙΔΊ
ΤΟ ΠΑΛΆΤΙ ΜΟΥ ΤΟ ΠΡΟΜΉΘΕΥΕ.	ΤΟ ΠΑΛΆΤΙ ΜΟΥ ΤΟ ΠΡΟΜΉΘΕΥΕ
ΉΛΘΕ ΜΉΝΥΜΑ ΑΠΌ ΤΟ ΘΕΊΟ ΒΑΣΙΛΙΆ;	ΉΛΘΑ ΜΕΊΝΕΙ ΜΕ ΑΠΌ ΤΟ ΘΕΊΟ ΒΑΣΊΛΙΑ
ΠΑΡΑΚΆΤΩ, ΈΝΑ ΡΥΆΚΙ ΜΟΥΡΜΟΎΡΙΖΕ ΓΛΥΚΆ, ΚΥΛΏΝΤΑΣ ΤΑ ΚΡΥΣΤΑΛΛΈΝΙΑ ΝΕΡΆ ΤΟΥ ΑΝΆΜΕΣΑ ΣΤΑ ΠΥΚΝΆ ΧΑΜΌΔΕΝΤΡΑ.	ΠΑΡΑΚΆΤΩ ΈΝΑ ΡΥΆΚΙ ΜΟΥΡΜΟΎΡΙΖΕ ΓΛΥΚΆ ΚΥΛΏΝΤΑΣ ΤΑ ΚΡΥΣΤΑΛΛΈΝΙΑ ΝΕΡΆ ΤΟΥ ΑΝΆΜΕΣΑ ΣΤΑ ΠΥΚΡΆ ΧΑΜΌΔΕΝΤΡΑ
ΠΡΆΓΜΑΤΙ, ΕΊΝΑΙ ΑΣΤΕΊΟ ΝΑ ΠΆΡΕΙ Ο ΔΙΆΒΟΛΟΣ	ΠΡΆΓΜΑΤΗ ΕΊΝΑΙ ΑΣΤΕΊΟ ΝΑ ΠΆΡΕΙ Ο ΔΙΆΒΟΛΟΣ

🔧 技術詳細

モデルの評価

以下のスクリプトを使用して、Common Voiceのギリシャ語テストデータでモデルを評価できます。

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "el"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-greek"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

テスト結果

以下の表は、モデルの単語誤り率（WER）と文字誤り率（CER）を示しています。私は2021 - 04 - 22にも、他のモデルに対して上記の評価スクリプトを実行しました。なお、下表の結果は、報告されている結果と異なる場合があります。これは、使用した他の評価スクリプトの特殊性によるものです。

モデル	単語誤り率（WER）	文字誤り率（CER）
lighteternal/wav2vec2-large-xlsr-53-greek	10.13%	2.66%
jonatasgrosman/wav2vec2-large-xlsr-53-greek	11.62%	3.36%
vasilis/wav2vec2-large-xlsr-53-greek	19.09%	5.88%
PereLluis13/wav2vec2-large-xlsr-53-greek	20.16%	5.71%

📄 ライセンス

このモデルは Apache 2.0 ライセンスの下で提供されています。

📚 引用

このモデルを引用する場合は、以下の形式を使用できます。

@misc{grosman2021xlsr53-large-greek,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {G}reek},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-greek}},
  year={2021}
}

モデル情報

属性	詳細
モデルタイプ	ギリシャ語音声認識用に微調整されたXLSR - 53大規模モデル
トレーニングデータ	Common Voice 6.1とCSS10のトレーニングセットと検証セット
評価指標	単語誤り率（WER）、文字誤り率（CER）