wav2vec2-large-xlsr-53-persianオープンソース音声認識モデル

ホーム

Wav2vec2 Large Xlsr 53 Persian

jonatasgrosmanによって開発

ペルシア語に最適化されたXLSR - 53大規模モデルの音声認識システムで、facebook/wav2vec2-large-xlsr-53アーキテクチャに基づいて微調整されています。

音声認識その他オープンソースライセンス:Apache-2.0 #ペルシア語音声認識 #XLSR - 53大規模モデル #低文字誤り率

ダウンロード数 257.76k

リリース時間 : 3/2/2022

モデル概要

このモデルはXLSR - 53アーキテクチャに基づいて最適化されたペルシア語音声認識システムで、一般音声6.1ペルシア語データセットを使用してトレーニングされ、ペルシア語の音声をテキストに変換するタスクに適しています。

モデル特徴

高性能ペルシア語認識

一般音声ペルシア語テストセットで30.12%の単語誤り率と7.37%の文字誤り率を達成しました。

XLSR - 53アーキテクチャに基づく

大規模な自己教師付き事前学習のXLSR - 53モデルを利用して微調整します。

16kHzサンプリングレートのサポート

16kHzサンプリングレートの音声入力に特化して最適化されています。

モデル能力

ペルシア語音声認識

音声をテキストに変換

音声の文字起こし

使用事例

音声文字起こし

ペルシア語音声をテキストに変換

ペルシア語の音声内容をテキスト形式に変換します。

一般音声テストセットで30.12%の単語誤り率を達成しました。

音声アシスタント

ペルシア語音声コマンド認識

ペルシア語音声アシスタントの音声コマンド理解に使用されます。

🚀 ペルシャ語音声認識用にファインチューニングされたXLSR-53大規模モデル

このモデルは、Common Voice 6.1 のトレーニングデータと検証データを使用して、ペルシャ語に対して facebook/wav2vec2-large-xlsr-53 をファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルは、OVHcloud から提供されたGPUクレジットのおかげでファインチューニングされました。

トレーニングに使用されたスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、言語モデルを使用せずに直接利用することができます。

✨ 主な機能

ペルシャ語の音声認識に特化したファインチューニング済みモデル。
音声入力が16kHzでサンプリングされていることを前提としています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install transformers datasets librosa torch

💻 使用例

基本的な使用法

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-persian")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
SAMPLES = 5

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

音声認識の結果例

参照文	予測文
از مهمونداری کنار بکشم	از مهمانداری کنار بکشم
برو از مهرداد بپرس.	برو از ماقدعاد به پرس
خب ، تو چیكار می كنی؟	خوب تو چیکار می کنی
مسقط پایتخت عمان در عربی به معنای محل سقوط است	مسقط پایتخت عمان در عربی به بعنای محل سقوط است
آه، نه اصلاُ!	اهنه اصلا
توانست	توانست
قصیده فن شعر میگوید ای دوستان	قصیده فن شعر میگوید ایدوستون
دو استایل متفاوت دارین	دوبوست داریل و متفاوت بری
دو روز قبل از کریسمس ؟	اون مفتود پش پشش
ساعت های کاری چیست؟	این توری که موشیکل خب

📚 ドキュメント

評価方法

このモデルは、Common Voiceのペルシャ語テストデータで以下のように評価できます。

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fa"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-persian"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# データセットの前処理
# 音声ファイルを配列として読み込む必要があります
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

テスト結果

以下の表に、このモデルの単語誤り率 (WER) と文字誤り率 (CER) を示します。2021年4月22日に、上記の評価スクリプトを他のモデルにも実行しました。ただし、以下の表の結果は既に報告されている結果と異なる場合があります。これは、使用された他の評価スクリプトの特性によるものです。

モデル	単語誤り率 (WER)	文字誤り率 (CER)
jonatasgrosman/wav2vec2-large-xlsr-53-persian	30.12%	7.37%
m3hrdadfi/wav2vec2-large-xlsr-persian-v2	33.85%	8.79%
m3hrdadfi/wav2vec2-large-xlsr-persian	34.37%	8.98%

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

🔧 技術詳細

モデル情報

属性	詳情
モデルタイプ	ファインチューニングされたXLSR-53大規模モデル
トレーニングデータ	Common Voice 6.1のペルシャ語のトレーニングデータと検証データ

引用

このモデルを引用する場合は、以下のようにしてください。

@misc{grosman2021xlsr53-large-persian,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {P}ersian},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-persian}},
  year={2021}
}