Fine-Tashkeelオープンソースアラビア语标音システム - 自动补完する発音记号の精度が高い

Home

Fine Tashkeel

Developed by basharalrfooh

バイトレベルの微調整モデルに基づくアラビア語の精密な発音記号システムで、事前訓練モデルの微調整によりアラビア語テキストの発音記号を自動補完します。

大規模言語モデル

Transformers

ArabicOpen Source License:MIT #アラビア語発音記号 #バイトレベルの微調整 #多言語サポート

Downloads 335

Release Time : 4/8/2024

Model Overview

このモデルはアラビア語テキストの欠落した発音記号を復元することに特化しており、特徴量エンジニアリングなしで単語エラー率を大幅に低減でき、古典アラビア語テキスト処理に適しています。

Model Features

マーカー不要の事前学習アーキテクチャ

ByT5モデルを採用し、生のテキストを直接処理することで、多言語や複雑な言語現象に柔軟に対応可能

効率的な微調整

少量のトレーニングで単語エラー率を40%低減し、現在の最高レベルの発音記号付け性能を達成

古典アラビア語最適化

古典アラビア語向けに特別に訓練され、Tashkeelaデータセットで13,000ステップの微調整を実施

Model Capabilities

アラビア語テキスト発音記号付け

発音記号予測

テキスト補完

Use Cases

言語処理

アラビア語テキスト発音記号付け

発音記号のないアラビア語テキストに自動的に正しい発音記号を追加

発音記号エラー率(DER)0.95、単語エラー率(WER)2.49

アラビア語学習支援

学習者がアラビア語単語の正しい発音を理解するのを支援

🚀 Fine-Tashkeel: 高精度アラビア語テキストのダイアクリティカルマーク付与のためのバイトレベルモデルのファインチューニング

Fine-Tashkeelは、事前学習されたバイトレベルのモデルをファインチューニングすることで、高精度なアラビア語テキストのダイアクリティカルマーク付与を実現するプロジェクトです。最小限のトレーニングと特徴量エンジニアリングなしで、高い性能を達成します。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

基本的な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd

if __name__ == "__main__":

  text = "كيف الحال"
  
  model_name = "basharalrfooh/Fine-Tashkeel" 
  
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
  
  input_ids = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(input_ids, max_new_tokens=128)
  decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
  print("Generated output:", decoded_output)

✨ 主な機能

事前学習されたトークンフリーの多言語モデル（ByT5）を利用して、アラビア語テキストのダイアクリティカルマーク付与を学習します。
最小限のトレーニングと特徴量エンジニアリングなしで、状態-of-the-artの性能を達成し、単語誤り率（WER）を40％削減します。
古典アラビア語に特化したトレーニングを行っています。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers pandas

📚 ドキュメント

モデル説明

ByT5モデルは、革新的なトークンフリーのアーキテクチャを持ち、生のテキストを直接処理して、様々な言語や言語的なニュアンスを巧みに扱います。広範なテキストコーパスmc4で事前学習されたByT5は、テキストの理解と生成に優れており、様々な自然言語処理タスクに汎用的です。我々は、Tashkeelaデータセットで13,000ステップのファインチューニングを行い、アラビア語のダイアクリティカルマーク付与の性能を大幅に向上させました。

ベンチマーク

注意: このモデルは古典アラビア語での使用に特化してトレーニングされています。

我々のモデルは、ダイアクリティカルマーク誤り率（DER）が0.95、単語誤り率（WER）が2.49を達成しました。

🔧 技術詳細

このプロジェクトでは、事前学習されたByT5モデルを利用して、アラビア語のダイアクリティカルマーク付与を学習します。ByT5は、トークンフリーのアーキテクチャを持ち、生のテキストを直接処理することができます。これにより、様々な言語や言語的なニュアンスを巧みに扱うことができます。我々は、Tashkeelaデータセットで13,000ステップのファインチューニングを行い、アラビア語のダイアクリティカルマーク付与の性能を大幅に向上させました。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📄 引用

@misc{alrfooh2023finetashkeel,
      title={Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization}, 
      author={Bashar Al-Rfooh and Gheith Abandah and Rami Al-Rfou},
      year={2023},
      eprint={2303.14588},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}