🚀 クレタ語XLS - Rモデル
クレタ語は、主にクレタ島に居住する人々やクレタのディアスポラに属する話者が使用する現代ギリシャ語の一種です。これには、1923年のギリシャとトルコの人口交換後に、シリアのハミディエ村や小アジア西部に移住したクレタ出身のコミュニティも含まれます。この方言の発展と保存に影響を与えた歴史的および地理的要因には、クレタ島が本土から長期間隔離されていたこと、および7世紀にわたってアラブ人、ヴェネチア人、トルコ人などの外国勢力による島の支配があります。クレタ語は、音韻、音声学、形態論、語彙の特徴に基づいて、西部と東部の2つの主要な方言グループに分けられています。これらのグループの境界は、島の行政区分であるレティムノ県とヘラクレオン県の境界と一致しています。Kontosopoulos (2008)は、東部の方言グループは西部の方言グループよりも均質であり、西部の方言グループは言語分析のすべてのレベルでより多くの変化を示すと主張しています。他の現代ギリシャ語の方言とは異なり、クレタ語は絶滅の危機に直面しておらず、島の様々な地域の多くの話者にとって唯一のコミュニケーション手段であり続けています。
これはクレタ語用の最初の自動音声認識(ASR)モデルです。このモデルを訓練するために、ギリシャ語のXLS - Rモデル(jonatasgrosman/wav2vec2-large-xlsr-53-greek)をクレタ語のリソースを使用してファインチューニングしました(下記参照)。
📚 リソース
クレタ語コーパスを編集するために、クレタ島のヘラクレオン市のヴィケライア市立図書館の映像部門の許可を得て、ラジオ放送のデジタル形式の資料が入った32本のテープを収集しました。これらの放送は、1998年から2001年の間に、ヘラクレオンのメッサラ地域のラジオミレスで録音され、放送されたもので、合計958分47秒に及びます。これらの録音は主に、一人の話者であるイオアニス・アナグノスタキスによるナラティブで構成されており、彼が内容を作成しています。テキストのジャンルとしては、放送の言語内容は地元の言語バリエーションで表現された民俗語り物です。収集した資料の総量のうち、9本のテープを利用しました。資料選択の基準は、一方では音声のデジタル的な明瞭さを最大化すること、もう一方ではラジオ録音の3年間全体にわたる代表的なサンプリングを確保することでした。最初の文字起こしを行うために、当時最大のWhisperモデルであるLarge - v2モデルを使用しました。その後、文字起こしは地元コミュニティと協力して手動で修正されました。使用された文字起こしシステムは、ギリシャ語のアルファベットと正書法に基づいており、Praatで注釈が付けられました。
データセットを準備するために、テキストを正規化し(greek_dialects_asr/のスクリプトを参照)、すべての音声ファイルを16kHzのモノラル形式に変換しました。
Praatの注釈を音声 - 文字起こしのセグメントに分割した結果、合計1時間21分12秒のデータセットが得られました。なお、音楽、長いポーズ、および文字起こしされていないセグメントを削除すると、(9本のテープの最初の2時間の録音と比較して)総音声時間が短縮されます。
📊 評価指標
モデルは、データセットの録音の10%からなるテストセットで評価されました。
モデル |
WER |
CER |
事前学習済み |
104.83% |
91.73% |
ファインチューニング済み |
28.27% |
7.88% |
🔧 学習ハイパーパラメータ
ベースラインモデル(wav2vec2-large-xlsr-53-greek
)をNVIDIA GeForce RTX 3090で、以下のハイパーパラメータを使用してファインチューニングしました。
引数 |
値 |
per_device_train_batch_size |
8 |
gradient_accumulation_steps |
2 |
num_train_epochs |
35 |
learning_rate |
3e - 4 |
warmup_steps |
500 |
📄 引用
この研究を引用するか、学習パイプラインについて詳しく読むには、以下を参照してください。
S. Vakirtzian, C. Tsoukala, S. Bompolas, K. Mouzou, V. Stamou, G. Paraskevopoulos, A. Dimakis, S. Markantonatou, A. Ralli, A. Anastasopoulos, Speech Recognition for Greek Dialects: A Challenging Benchmark, Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), 2024.