🚀 基于MLQA数据集训练的德语问答模型
本项目是一个基于MLQA数据集训练的德语问答模型,使用deepset.ai的GELECTRA Large模型进行微调,能够有效处理德语的问答任务。
🚀 快速开始
此问答模型经过在MLQA数据集上的训练,可用于德语问答场景。
✨ 主要特性
- 多框架支持:支持PyTorch和TensorFlow。
- 多指标评估:使用F1和EM指标进行评估。
- 良好性能:在MLQA DEV和XQUAD TEST数据集上均有不错的表现。
📚 详细文档
评估指标
MLQA DEV(德语)
XQUAD TEST(德语)
超参数
属性 |
详情 |
per_gpu_train_batch_size |
4 |
per_gpu_eval_batch_size |
32 |
gradient_accumulation_steps |
8 |
learning_rate |
3e - 5 |
num_train_epochs |
1.0 |
max_seq_length |
384 |
doc_stride |
128 |
💻 使用示例
基础用法
!pip install -q transformers
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="Sahajtomar/GELECTRAQA",
tokenizer="Sahajtomar/GELECTRAQA"
)
qa_pipeline({
'context': "Vor einigen Jahren haben Wissenschaftler ein wichtiges Mutagen identifiziert, das in unseren eigenen Zellen liegt: APOBEC, ein Protein, das normalerweise als Schutzmittel gegen Virusinfektionen fungiert. Heute hat ein Team von Schweizer und russischen Wissenschaftlern unter der Leitung von Sergey Nikolaev, Genetiker an der Universität Genf (UNIGE) in der Schweiz, entschlüsselt, wie APOBEC eine Schwäche unseres DNA-Replikationsprozesses ausnutzt, um Mutationen in unserem Genom zu induzieren.",
'question': "Welches Mutagen schützt vor Virusinfektionen?"
})
{'answer': 'APOBEC', 'end': 121, 'score': 0.987, 'start': 115}
高级用法
qa_pipeline({
"context": "Es wird erwartet, dass sich schwarze Löcher mit Sternmasse bilden, wenn sehr massive Sterne am Ende ihres Lebenszyklus zusammenbrechen. Nachdem sich ein Schwarzes Loch gebildet hat, kann es weiter wachsen, indem es Masse aus seiner Umgebung absorbiert. Durch Absorption anderer Sterne und Verschmelzung mit anderen Schwarzen Löchern können sich supermassereiche Schwarze Löcher mit Millionen von Sonnenmassen (M☉) bilden. Es besteht Konsens darüber, dass in den Zentren der meisten Galaxien supermassereiche Schwarze Löcher existieren.",
'question': "Wie Sonnenmassen entstehen?"
})
{'answer': 'Durch Absorption anderer Sterne und Verschmelzung mit anderen Schwarzen Löchern',
'end': 332,
'score': 0.23970196,
'start': 253}