🚀 AraElectraによるArabic - SQuADv2での質問応答
これは、AraElectraモデルを、Arabic - SQuADv2.0データセットを使用してファインチューニングしたものです。質問応答タスクのために、回答不能な質問を含む質問 - 回答ペアでトレーニングされています。また、AraElectra Classifierの助けを借りて、回答不能な質問を予測します。
✨ 主な機能
概要
- 言語モデル: AraElectra
- 言語: アラビア語
- 下流タスク: 抽出型質問応答
- トレーニングデータ: Arabic - SQuADv2.0
- 評価データ: Arabic - SQuADv2.0
- テストデータ: Arabic - SQuADv2.0
- コード: Githubで詳細を見る
- インフラストラクチャ: 1x Tesla K80
ハイパーパラメータ
batch_size = 8
n_epochs = 4
base_LM_model = "AraElectra"
learning_rate = 3e-5
optimizer = AdamW
padding = dynamic
アラビア語ウィキペディアとユーザー提供の文脈でのオンラインデモ
Streamlitでホストされているモデルの動作を見ることができます 
📦 インストール
このセクションでは、原READMEに具体的なインストール手順が記載されていないため、省略されています。
💻 使用例
基本的な使用法
最良の結果を得るには、aub - mindによるAraBert 前処理器を使用してください。
from transformers import ElectraForQuestionAnswering, ElectraForSequenceClassification, AutoTokenizer, pipeline
from preprocess import ArabertPreprocessor
prep_object = ArabertPreprocessor("araelectra-base-discriminator")
question = prep_object('ما هي جامعة الدول العربية ؟')
context = prep_object('''
جامعة الدول العربية هيمنظمة إقليمية تضم دولاً عربية في آسيا وأفريقيا.
ينص ميثاقها على التنسيق بين الدول الأعضاء في الشؤون الاقتصادية، ومن ضمنها العلاقات التجارية الاتصالات، العلاقات الثقافية، الجنسيات ووثائق وأذونات السفر والعلاقات الاجتماعية والصحة. المقر الدائم لجامعة الدول العربية يقع في القاهرة، عاصمة مصر (تونس من 1979 إلى 1990).
''')
qa_modelname = 'ZeyadAhmed/AraElectra-Arabic-SQuADv2-QA'
cls_modelname = 'ZeyadAhmed/AraElectra-Arabic-SQuADv2-CLS'
qa_pipe = pipeline('question-answering', model=qa_modelname, tokenizer=qa_modelname)
QA_input = {
'question': question,
'context': context
}
CLS_input = {
'text': question,
'text_pair': context
}
qa_res = qa_pipe(QA_input)
cls_res = cls_pipe(CLS_iput)
threshold = 0.5
qa_model = ElectraForQuestionAnswering.from_pretrained(qa_modelname)
cls_model = ElectraForSequenceClassification.from_pretrained(cls_modelname)
tokenizer = AutoTokenizer.from_pretrained(qa_modelname)
📚 ドキュメント
データセット
Property |
Details |
Datasets |
ZeyadAhmed/Arabic - SQuADv2.0 |
評価指標
Property |
Details |
exact_match |
65.12 |
F1 |
71.49 |
性能評価
公式評価スクリプトを使用して、Arabic - SQuAD 2.0テストセットで評価されています。ただし、アラビア語に適合するように前処理を少し変更しています 修正された評価スクリプト。
"exact": 65.11555277951281,
"f1": 71.49042547237256,
"total": 9606,
"HasAns_exact": 56.14535768645358,
"HasAns_f1": 67.79623803036668,
"HasAns_total": 5256,
"NoAns_exact": 75.95402298850574,
"NoAns_f1": 75.95402298850574,
"NoAns_total": 4350
🔧 技術詳細
このセクションでは、原READMEに具体的な技術詳細が十分に記載されていないため、省略されています。
📄 ライセンス
このセクションでは、原READMEにライセンス情報が記載されていないため、省略されています。