wav2vec2-large-xlsr-53-arabicオープンソースモデル - 無料で16kHzのアラビア語自動音声認識を実現

ホーム

Wav2vec2 Large Xlsr 53 Arabic

elgeishによって開発

facebook/wav2vec2-large-xlsr-53をベースに微調整されたアラビア語自動音声認識モデルで、16kHzサンプリングレートの音声入力に対応しています。

音声認識アラビア語オープンソースライセンス:Apache-2.0 #アラビア語音声認識 #XLSR大モデルの微調整 #バックワルト転写

ダウンロード数 994

リリース時間 : 3/2/2022

モデル概要

このモデルはアラビア語に最適化された自動音声認識システムで、XLSRアーキテクチャを採用し、Common Voiceとアラビア語音声コーパスで微調整トレーニングを行っています。

モデル特徴

アラビア語最適化

アラビア語の音声特性に合わせて特別に微調整され、バックワルト転写システムを使用してアラビア語テキストを処理します。

二段階トレーニング

まずアラビア語音声コーパスで事前トレーニングを行い、次にCommon Voiceデータセットで微調整を行い、認識精度を最適化します。

言語モデル不要

直接使用でき、追加の言語モデルのサポートは必要ありません。

モデル能力

アラビア語音声認識

16kHzサンプリングレートのオーディオ処理

アラビア語音声の自動転写

使用事例

音声転写

アラビア語音声をテキストに転写

アラビア語の音声内容を自動的にテキストに転写します。

Common Voiceテストセットで26.55%の単語誤り率(WER)に達しました。

音声アシスタント

アラビア語音声指令認識

アラビア語音声アシスタントシステムの音声指令認識に使用されます。

🚀 Wav2Vec2-Large-XLSR-53-Arabic

このモデルは、facebook/wav2vec2-large-xlsr-53 をアラビア語でファインチューニングしたものです。訓練には、Common Voice と Arabic Speech Corpus の train 分割データを使用しています。このモデルを使用する際には、音声入力が 16kHz でサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、直接（言語モデルなしで）使用することができます。以下に使用例を示します。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from lang_trans.arabic import buckwalter
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

dataset = load_dataset("common_voice", "ar", split="test[:10]")
resamplers = {  # all three sampling rates exist in test split
    48000: torchaudio.transforms.Resample(48000, 16000),
    44100: torchaudio.transforms.Resample(44100, 16000),
    32000: torchaudio.transforms.Resample(32000, 16000),
}

def prepare_example(example):
    speech, sampling_rate = torchaudio.load(example["path"])
    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
    return example

dataset = dataset.map(prepare_example)
processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic").eval()

def predict(batch):
    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
    with torch.no_grad():
        predicted = torch.argmax(model(inputs.input_values).logits, dim=-1)
    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
    batch["predicted"] = processor.tokenizer.batch_decode(predicted)
    return batch

dataset = dataset.map(predict, batched=True, batch_size=1, remove_columns=["speech"])

for reference, predicted in zip(dataset["sentence"], dataset["predicted"]):
    print("reference:", reference)
    print("predicted:", buckwalter.untrans(predicted))
    print("--")

以下は出力例です。

reference: ألديك قلم ؟
predicted: هلديك قالر
--
reference: ليست هناك مسافة على هذه الأرض أبعد من يوم أمس.
predicted: ليست نالك مسافة على هذه الأرض أبعد من يوم أمس
--
reference: إنك تكبر المشكلة.
predicted: إنك تكبر المشكلة
--
reference: يرغب أن يلتقي بك.
predicted: يرغب أن يلتقي بك
--
reference: إنهم لا يعرفون لماذا حتى.
predicted: إنهم لا يعرفون لماذا حتى
--
reference: سيسعدني مساعدتك أي وقت تحب.
predicted: سيسئدني مساعد سكرأي وقت تحب
--
reference: أَحَبُّ نظريّة علمية إليّ هي أن حلقات زحل مكونة بالكامل من الأمتعة المفقودة.
predicted: أحب ناضريةً علمية إلي  هي أنحل قتزح المكونا بالكامل من الأمت عن المفقودة
--
reference: سأشتري له قلماً.
predicted: سأشتري له قلما
--
reference: أين المشكلة ؟
predicted: أين المشكل
--
reference: وَلِلَّهِ يَسْجُدُ مَا فِي السَّمَاوَاتِ وَمَا فِي الْأَرْضِ مِنْ دَابَّةٍ وَالْمَلَائِكَةُ وَهُمْ لَا يَسْتَكْبِرُونَ
predicted: ولله يسجد ما في السماوات وما في الأرض من دابة والملائكة وهم لا يستكبرون
--

📚 ドキュメント

評価

このモデルは、Common Voice のアラビア語テストデータで以下のように評価することができます。

import jiwer
import torch
import torchaudio
from datasets import load_dataset
from lang_trans.arabic import buckwalter
from transformers import set_seed, Wav2Vec2ForCTC, Wav2Vec2Processor

set_seed(42)
test_split = load_dataset("common_voice", "ar", split="test")
resamplers = {  # all three sampling rates exist in test split
    48000: torchaudio.transforms.Resample(48000, 16000),
    44100: torchaudio.transforms.Resample(44100, 16000),
    32000: torchaudio.transforms.Resample(32000, 16000),
}

def prepare_example(example):
    speech, sampling_rate = torchaudio.load(example["path"])
    example["speech"] = resamplers[sampling_rate](speech).squeeze().numpy()
    return example

test_split = test_split.map(prepare_example)
processor = Wav2Vec2Processor.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic")
model = Wav2Vec2ForCTC.from_pretrained("elgeish/wav2vec2-large-xlsr-53-arabic").to("cuda").eval()

def predict(batch):
    inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
    with torch.no_grad():
        predicted = torch.argmax(model(inputs.input_values.to("cuda")).logits, dim=-1)
    predicted[predicted == -100] = processor.tokenizer.pad_token_id  # see fine-tuning script
    batch["predicted"] = processor.tokenizer.batch_decode(predicted)
    return batch

test_split = test_split.map(predict, batched=True, batch_size=16, remove_columns=["speech"])
transformation = jiwer.Compose([
    # normalize some diacritics, remove punctuation, and replace Persian letters with Arabic ones
    jiwer.SubstituteRegexes({
        r'[auiFNKo\~_،؟»\?;:\-,\.؛«!"]': "", "\u06D6": "",
        r"[\|\{]": "A", "p": "h", "ک": "k", "ی": "y"}),
    # default transformation below
    jiwer.RemoveMultipleSpaces(),
    jiwer.Strip(),
    jiwer.SentencesToListOfWords(),
    jiwer.RemoveEmptyStrings(),
])
metrics = jiwer.compute_measures(
    truth=[buckwalter.trans(s) for s in test_split["sentence"]],  # Buckwalter transliteration
    hypothesis=test_split["predicted"],
    truth_transform=transformation,
    hypothesis_transform=transformation,
)
print(f"WER: {metrics['wer']:.2%}")

テスト結果: 26.55%

訓練

詳細については、Fine-Tuning with Arabic Speech Corpus を参照してください。

このモデルは、Buckwalter transliteration と呼ばれる形式でアラビア語を表現しています。Buckwalter 形式は ASCII 文字のみを含み、一部の文字は非アルファベット文字です（例: ">" は "أ" に対応）。lang-trans パッケージを使用して、アラビア語のアブジャダを変換（音写）しています。

このスクリプトを使用して、まず facebook/wav2vec2-large-xlsr-53 を Arabic Speech Corpus データセットの train 分割でファインチューニングしました。test 分割はモデル選択に使用され、この時点で得られたモデルは elgeish/wav2vec2-large-xlsr-53-levantine-arabic として保存されました。

その後、Common Voice データセットの train 分割を使用して訓練を再開しました。validation 分割はモデル選択に使用され、Fine-Tune-XLSR Week の締め切りに合わせて訓練を停止しました。このモデルは 100k ステップでのチェックポイントで、検証 WER は 23.39% です。

検証 WER が低下傾向にあることから、さらなる訓練（学習率を 7e-6 で再開）の可能性が示されています。

今後の展望

一つの探索領域は、モデル入力で attention_mask を使用することです。これはこちらで推奨されています。また、こちらにリストされているモデルの訓練に使用されたデータセットを用いたデータ拡張を探索することも考えられます。

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

属性	详情
モデルタイプ	Wav2Vec2-Large-XLSR-53-Arabic
訓練データ	Arabic Speech Corpus、Common Voice 6.1
評価指標	WER
タグ	audio、automatic-speech-recognition、speech、xlsr-fine-tuning-week、hf-asr-leaderboard