wav2vec2-large-xlsr-53-arabicオープンソース音声認識モデル - 無料で高精度にアラビア語音声を認識

ホーム

Wav2vec2 Large Xlsr 53 Arabic

jonatasgrosmanによって開発

facebook/wav2vec2-large-xlsr - 53をベースに微調整されたアラビア語音声認識モデルで、Common Voiceとアラビア語音声コーパスで訓練されました。

音声認識アラビア語オープンソースライセンス:Apache-2.0 #アラビア語音声認識 #XLSR - 53微調整 #低い単語誤り率

ダウンロード数 2.3M

リリース時間 : 3/2/2022

モデル概要

アラビア語に最適化された自動音声認識(ASR)モデルで、16kHzサンプリングレートの音声入力をテキストに変換できます。

モデル特徴

高性能アラビア語認識

Common Voiceアラビア語テストセットで39.59%のWERと18.18%のCERを達成し、同類のアラビア語ASRモデルより優れています。

複数データセットでの訓練

Common Voice 6.1とアラビア語音声コーパスを組み合わせて訓練することで、モデルの汎化能力を向上させます。

即時使用可能なモデル

追加の言語モデルなしで直接使用でき、デプロイプロセスを簡素化します。

モデル能力

アラビア語音声認識

16kHzオーディオ処理

長い音声の文字起こし

使用事例

音声から文字への変換

音声メモの文字起こし

アラビア語の音声メモを検索可能なテキストに変換します。

精度約80%（CERに基づく推測）

カスタマーサービスの会話記録

アラビア語のカスタマーサービス通話内容を自動記録します。

支援技術

聴覚障害者支援

聴覚障害者にリアルタイム字幕を提供します。

🚀 アラビア語音声認識用にファインチューニングされたXLSR-53大規模モデル

このモデルは、Common Voice 6.1 と Arabic Speech Corpus のトレーニングと検証データセットを使用して、アラビア語に対して facebook/wav2vec2-large-xlsr-53 をファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

このモデルのファインチューニングは、OVHcloud から提供されたGPUクレジットのおかげで行われました。

トレーニングに使用されたスクリプトはこちらにあります: https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 クイックスタート

このモデルは、以下のように直接使用することができます（言語モデルを使用せずに）。

💻 使用例

基本的な使用法

HuggingSound ライブラリを使用する場合:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-arabic")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高度な使用法

独自の推論スクリプトを書く場合:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ar"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

参照文	予測文
ألديك قلم ؟	ألديك قلم
ليست هناك مسافة على هذه الأرض أبعد من يوم أمس.	ليست نالك مسافة على هذه الأرض أبعد من يوم الأمس م
إنك تكبر المشكلة.	إنك تكبر المشكلة
يرغب أن يلتقي بك.	يرغب أن يلتقي بك
إنهم لا يعرفون لماذا حتى.	إنهم لا يعرفون لماذا حتى
سيسعدني مساعدتك أي وقت تحب.	سيسئدنيمساعدتك أي وقد تحب
أَحَبُّ نظريّة علمية إليّ هي أن حلقات زحل مكونة بالكامل من الأمتعة المفقودة.	أحب نظرية علمية إلي هي أن حل قتزح المكوينا بالكامل من الأمت عن المفقودة
سأشتري له قلماً.	سأشتري له قلما
أين المشكلة ؟	أين المشكل
وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْأَرْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ	ولله يسجد ما في السماوات وما في الأرض من دابة والملائكة وهم لا يستكبرون

🔧 評価

このモデルは、Common Voiceのアラビア語テストデータで以下のように評価することができます。

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ar"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-arabic"
DEVICE = "cuda"

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                  "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                  "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                  "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                  "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "'", "ʻ", "ˆ"]

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/wer.py
cer = load_metric("cer.py") # https://github.com/jonatasgrosman/wav2vec2-sprint/blob/main/cer.py

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to(DEVICE), attention_mask=inputs.attention_mask.to(DEVICE)).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.upper() for x in result["pred_strings"]]
references = [x.upper() for x in result["sentence"]]

print(f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")
print(f"CER: {cer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}")

テスト結果:

以下の表に、このモデルの単語誤り率 (WER) と文字誤り率 (CER) を示します。私は上記の評価スクリプトを他のモデルにも実行しました (2021年5月14日)。以下の表の結果は、既に報告されている結果と異なる場合があります。これは、使用された他の評価スクリプトの特性によるものです。

モデル	単語誤り率 (WER)	文字誤り率 (CER)
jonatasgrosman/wav2vec2-large-xlsr-53-arabic	39.59%	18.18%
bakrianoo/sinai-voice-ar-stt	45.30%	21.84%
othrif/wav2vec2-large-xlsr-arabic	45.93%	20.51%
kmfoda/wav2vec2-large-xlsr-arabic	54.14%	26.07%
mohammed/wav2vec2-large-xlsr-arabic	56.11%	26.79%
anas/wav2vec2-large-xlsr-arabic	62.02%	27.09%
elgeish/wav2vec2-large-xlsr-53-arabic	100.00%	100.56%

📚 引用

このモデルを引用する場合は、次のように使用できます。

@misc{grosman2021xlsr53-large-arabic,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {A}rabic},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-arabic}},
  year={2021}
}

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📋 モデル情報

属性	詳細
モデルタイプ	音声認識用のファインチューニング済みXLSR-53大規模モデル
トレーニングデータ	Common Voice 6.1 と Arabic Speech Corpus
評価指標	単語誤り率 (WER)、文字誤り率 (CER)
タグ	オーディオ、自動音声認識、音声、xlsr-fine-tuning-week